Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))
классификации), либо соответствующий листу интервал целевой переменной (для дерева регрессии). Путь в дереве к каждому листу единственный, соответственно каждый пример из обучающего множества может попасть только в один лист, что обеспечивает единственность решения. В работах [11, 12] были сформулированы идеи, послужившие основой для деревьев решений. Далее развитие деревьев решений пошло по пути разработки алгоритмов: разработан алгоритм ID3 (Iterative Dichotomizer 3). Этот алгоритм предназначен для работы с дискретной целевой переменной, поэтому как указано выше, деревья решений, построенные с помощью данного алгоритма, являются классифицирующими. В дальнейшем разработаны усовершенствованные модификации этого алгоритма С4.5 и С5.0 [13], в которые добавлена возможность работы с пропущенными значениями атрибутов. Далее был предложен алгоритм CART (Classification and Regression Tree), алгоритм обучения деревьев решений, использующий и дискретную и непрерывную целевые переменные, таким образом этот алгоритм позволяет решать как задачи классификации, так и регрессии [14]. Недостатком метода деревьев решений является то, что результат его работы зависит как от выбора алгоритма, так и от набора исследуемых данных. Для того, чтобы построить качественную модель, необходимо изначально понимать взаимосвязи между переменными (что всегда является трудной задачей) и располагать достаточным набором данных. Деревья решений применяются при анализе данных и машинном обучении, для поддержки процессов принятия управленческих решений, используемая в статистике и др. Методы кластерного анализа Кластерный анализ является одним из популярных методов Data Mining. Этот метод предназначен для разбиения множества исходных данных на группы (кластера), таким образом, чтобы элементы, входящие в одну группу, были однородными (максимально «схожими»), а элементы из разных групп были разнородными (максимально «отличными» друг от друга). Методы кластерного анализа можно разделить на иерархические при работе которых происходит последовательное объединение меньших кластеров в большие (агломеративные алгоритмы) или разделении больших кластеров на меньшие (дивизимные алгоритмы), и неиерархические методы, которые применяются при большом количестве наблюдений. Эти методы используют итеративные процедуры разделения исходной совокупности данных. Новые кластеры будут формироваться до тех пор, пока не будет выполнено некоторое заранее заданное правило остановки. Для разбиения массива исходных данных на кластера используют различные «метрики» (меры близости объектов). Выбор метрики изначально является суъективным решением исследователя, что является как преимуществом, так и недостатком кластерного анализа. Перечислим наиболее популярные метрики, используемые в иерархических методах кластерного анализа: расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров, расстояние дальнего соседа - расстояние между самыми дальними объектами кластеров, расстояние между центрами тяжести - расстояние между центральными точками кластеров, 94
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz