Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))
квадрат евклидова расстояния, Манхэттенское расстояние, расстояние Чебышева и др. Наиболее часто используемыми иерархическими алгоритмами кластерного анализа являются, например Метод Варда (Ward's method), который описан в работе [15], метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages) UPGMA, представленный в работе [16], метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages) WPGMA [16], невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average) [16], взвешенный центроидный метод (метод взвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average) WPGMC [16] и др. Если количество наблюдений является большим, то иерархические методы кластерного анализа не могут быть использованы. В таких случаях используют неиерархические методы. В работе [17] приведено наиболее полное описание алгоритма k-средних (k-means), который также называют быстрым кластерным анализом. Так же, стоит упомянуть алгоритм PAM (partitioning around Medoids), который является модификацией алгоритма k-средних, алгоритмом k-медианы (k-medoids). Даже из названий алгоритмов следует, что основное различие между ними состоит в использовании различных межклассовых и внутриклассовых расстояний. В работе [18] представлены алгоритмы кластеризации, способные обрабатывать сверхбольшие базы данных. В настоящее время разработаны алгоритмы, в которых методы иерархической кластеризации сочетаются с другими методами. К таким алгоритмам относятся: BIRCH [19], WaveCluster [20], Алгоритм Clarans (Clustering Large Applications based upon RANdomized Search) [21], алгоритм DBScan [22] и др. Недостатком этих алгоритмов является то, что упомянутые алгоритмы требуют больших вычислительных ресурсов [23], так как обрабатывают большие объемы данных. Большинство современных пакетов прикладных программ для статистической обработки многомерных данных включают в себя различные методы кластерного анализа. Ассоциативные правила В настоящее время метод поиска ассоциативных правил является одним из методов Data Mining, предназначенным для обнаружения знаний, применение алгоритмов которого дает возможность производить поиск в базах данных. По аналогии с представлением знаний в базах знаний продукционных экспертных систем, ассоциативное правило имеет вид: «ЕСЛИ имеет место событие А, ТО из этого следует событие В», то есть формулируется на языке, близком к естественному и интуитивно понятным образом. Таким образом, подобное правило для базы данных можно переформулировать в виде: «Если в транзакции имеется набор элементов A, то в этой же транзакции должен появиться набор элементов B». Проведение такого анализа позволяет находить правила, которые называют ассоциативными и являются простыми и понятными. 95
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz