Труды КНЦ (Технические науки вып.3/2025(16))

Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. 2. Методы на основе окна [25]. Кластеризация в подпространствах на основе окон устраняет недостатки кластеризации на основе ячеек, которые могут привести к пропуску важных результатов [5]. Здесь окно перемещается по значениям атрибутов, и получаются перекрывающиеся интервалы, которые используются для формирования кластеров подпространства. Размер скользящего окна является одним из параметров. Эти алгоритмы генерируют кластеры подпространств, параллельные оси. 3. Методы на основе плотности [11]. Подход не использует сетки. Кластер определяется как совокупность объектов, образующих цепочку, которые находятся на заданном расстоянии и превышают заданный порог количества объектов. Затем соседние плотные области объединяются в более крупные кластеры. Эти алгоритмы могут находить в подпространствах кластеры произвольной формы. Кластеры создаются путем объединения объектов из смежных областей с плотной структурой. Подходы на основе плотности используют значение параметра расстояния, применяемого для вычисления меры плотности, которая адаптируется к размерности подпространства. На рисунке 1 представлена иерархия алгоритмов кластеризации в подпространствах на основе стратегии поиска. /■ ------------------------- ч Алгоритмы кластеризации в подпространствах Ч________________ У Итеративные Методы поиска методы поиска на основе сетки «Сверху вниз» «Снизу вверх» Рис. 1. Иерархия алгоритмов кластеризации вподпространствах на основе стратегии поиска Далее рассмотрим данные подходы и алгоритмы, их реализующие, более подробно. Алгоритмы PROCLUS [26], ORCLUS [27] и FINDIT [28] являются алгоритмами кластеризации в подпространствах, основанными на расстояниях и разбиениях. Они начинают с поиска начального приближения кластеров в полноразмерном пространстве с одинаково взвешенными измерениями, а затем каждому измерению присваивается вес для каждого кластера. Обновленные веса используются в следующей итерации для восстановления кластеров. ORCLUS [27] отличается от других подходов тем, что использует метод главных компонент (PCA) и, следовательно, проекции, в которых он ищет кластеры, не обязательно параллельны осям. Алгоритмы, основанные на PCA, также называются «корреляционной кластеризацией» [29]. Для нисходящих алгоритмов требуется два параметра: количество кластеров и средний размер подпространств, которые часто трудно определить, но которые также критически важны для производительности алгоритмов [18]. Основное отличие модели nCluster [30] от подходов, основанных на плотности и сетке, заключается в способе определения кластеров. В модели nCluster каждая пара объектов близка друг к другу по всем измерениям подпространств. В некотором смысле модель на основе плотности можно рассматривать как кластеризацию с одной связью, а модель nCluster — как кластеризацию © Зуенко О. Н., Фридман О. В., 2025 38