Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Применение наивной байесовской классификации представлено во многих работах, например в [7, 8]. Приведем краткий перечень областей, где этот метод успешно применяется: прогнозирование в реальном времени, классификация текста, фильтрация спама, фильтрация невидимой информации, прогнозирование погоды и др. Метод опорных векторов В работе [9] описана группа методов, которая позволяет проводить классификацию при помощи определения границ областей т.н. опорных векторов. К этой группе методов относится метод опорных векторов (Support Vector Machine - SVM). Этот метод позволяет решать задачи бинарной классификации. Согласно [9], метод использует понятие плоскостей решений (plane), при помощи которого объекты, относящиеся к разным классам, отделяются друг от друга т.н. плоскостью решения. При работе метода производится поиск плоскости, разделяющей два множества объектов, относящихся к разным классам. Опорные вектора представляют собой образцы, находящиеся на границах между двумя классами. Классификация считается успешной, если область между границами пуста. В качестве примера алгоритма, реализующего метод опорных векторов обычно приводят линейный SVM алгоритм (Support Vector Machines). При применении этого алгоритма производится поиск объектов, которые попадают в область вблизи линии разделения (т.е. являются опорными векторами). Между ними вычисляется расстояние и расстояние до разделяющей плоскости, которое называют зазором. Необходимо найти такую гиперплоскостью, для которой этот зазор будет максимально большим. Метод успешно применяется при решении задач классификации для линейно разделимых наборов данных, в случае линейной неразделимости исходных наборов данных применяют т.н. алгоритмом с мягким зазором (soft-margin SVM), где позволяются ошибки на обучающей выборке Недостатком метода является то, что при проведении классификации используется только та часть образцов, которая находится на границах. Достоинством метода является то, что для его работы достаточно небольшого набора исходных данных, что позволяет примененять его при решении различных задач, где данные бывают неполными, недостоверными и т.п. [10]. Деревья решений Деревья решений [9] представляют собой иерархические древовидные структуры, позволяющие автоматически генерировать в процессе обучения на обучающем множестве решающие правила формата «Если ..., то ...», деревья решений являются моделями, строящимися на основе обучения с учителем. Для примеров из обучающего множества задается целевое значение целевой переменной. Если эта целевая переменная является дискретной и представляет собой метку класса, то модель называют деревом классификации, а если непрерывной, то деревом регрессии. Решающие правила представляются в виде иерархической структуры, состоящей из элементов двух типов - узлов (node), где находятся решающие правила и производится проверка соответствия примеров каждому правилу, и листьев (leaf), определяющих решение для каждого попавшего в лист примера, и представляющих собой либо класс, ассоциируемый с узлом (для дерева 93

RkJQdWJsaXNoZXIy MTUzNzYz