Труды КНЦ (Технические науки вып.3/2025(16))

с полной связью. Более того, подходы, основанные на сетке, делят область каждого измерения на неперекрывающиеся ячейки; здесь же используется подход скользящего окна для сохранения значимых кластеров. Основное различие между моделью n Cluster и подходами, основанными на расстоянии и разбиении, такими как PROCLUS и ORCLUS, заключается в том, что модель n Cluster допускает перекрытие между кластерами, в то время как подходы на основе разбиении не допускают. Алгоритм COSA (Clustering On Subsets o f Attributes) [31] уникален тем, что использует ближайших соседей для каждого экземпляра в наборе данных, чтобы определить веса всех измерений данного конкретного экземпляра. Этот итеративный алгоритм назначает веса каждому измерению для каждого экземпляра, а не кластера. После кластеризации веса измерений элементов кластера сравниваются и вычисляется итоговое значение важности для каждого измерения каждого кластера. Модель, основанная на плотности, направлена на поиск областей с высокой плотностью в подпространствах, разделенных областями с меньшей плотностью. CLIQUE [17], MAFIA [21], CBF [32] и CLTree [33] — это алгоритмы кластеризации в подпространствах, основанные на плотности и сетке. Они дискретизируют пространство данных на неперекрывающиеся прямоугольные ячейки, разбивая каждое измерение на несколько интервалов, а затем используют поиск по алгоритму Apriori для нахождения перекрывающихся кластеров. И CLIQUE, и ENCLUS используют сетку фиксированного размера для разбиения каждого измерения на интервалы. Другие алгоритмы применяют стратегии, основанные на данных, для определения границ каждого измерения. MAFIA и CBF используют гистограммы для анализа плотности данных в измерениях. Стратегия CLTree основана на дереве решений. Другой алгоритм кластеризации на основе плотности — SUBCLU [11] — вместо сеточного подхода использует алгоритм DBSCAN [34] для поиска кластеров произвольной формы в отдельных подпространствах послойным способом, что может быть очень затратно. Метод DOC [35] (Density-Based Optimal Projective Clustering) — это алгоритм Монте-Карло, который вычисляет с высокой вероятностью хорошее приближение проективного кластера. Алгоритм выполняется с помощью итераций, каждая из которых генерирует один новый кластер. Итерация останавливается, когда некоторый заданный критерий выполнен. Проективный кластер — это параллельный осям куб, который имеет максимальную длину ребра и содержит больше некоторого значения от общего числа точек. Для работы DOC также нужно задать фактор баланса, который представляет собой выбор пользователем отношения относительной важности числа точек к числу измерений в кластере. Основные этапы кластеризации в подпространствах Кластеризация в подпространствах направлена на выявление проекций подпространства исходного набора данных, т. е. наборов атрибутов или интервалов в пределах диапазона атрибутов, где можно найти соответствующие кластеры объектов. Большинство алгоритмов «Снизу вверх» состоят из трех основных этапов: 1) этап предварительной обработки, на котором производится подготовка данных; 2) этап анализа данных, на котором производится поиск кластеров; 3) этап постобработки, на котором производится объединение кластеров или удаление избыточных. Этап предварительной обработки Этот этап в основном применяется в алгоритмах, которые сначала разбивают необработанный набор данных на (гибкую) сетку, подходящую для использования в качестве входных данных стандартными алгоритмами интеллектуального анализа наборов элементов (паттернов), такими как Apriori [26], Eclat [36], FPGrowth [37]. В этом случае создается новая бинарная таблица данных (бинарная объектно-признаковая таблица). Измерения необработанных данных разбиваются на интервалы, называемые ячейками, которые являются атрибутами этой новой таблицы. Процесс разбиения зависит от конкретных алгоритмов кластеризации в подпространствах. Например, алгоритмы, основанные на сетке, такие как CLIQUE [17] и его модификации Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. © Зуенко О. Н., Фридман О. В., 2025 39

RkJQdWJsaXNoZXIy MTUzNzYz