Труды КНЦ (Технические науки вып.3/2025(16))

но независимо от модели кластера. В первом сценарии можно рассматривать поиск подпространств как глобальную идентификацию «интересных» подпространств, таких, в которых будут существовать кластеры, и, следовательно, как сужение пространства поиска. Во втором сценарии наблюдается локальная идентификация «интересных» подпространств. Типичным вариантом использования этих «локально интересных» подпространств является локальная адаптация мер расстояния, то есть для разных кластеров применяются разные меры сходства. Например, в [20]: (1) предлагается алгоритм ENCLUS, который позволяет определить новые значимые критерии высокой плотности и корреляции измерений для качества кластеризации в подпространствах; (2) вводится использование энтропии и приводятся доказательства в поддержку ее использования; (3) используются два свойства замыкания, основанные на энтропии, для эффективного отсечения неинтересных подпространств; (4) предлагается механизм поиска не минимально коррелированных подпространств, которые представляют интерес из-за сильной кластеризации. Для определения интересных подпространств используется энтропия Шеннона [56]. Энтропия измеряет неопределенность случайной величины, где высокое значение означает высокий уровень неопределенности. Равномерное распределение подразумевает наибольшую неопределенность, поэтому низкое значение энтропии (ниже некоторого порога) используется в качестве указания на кластеры подпространства. «Интересными» подпространствами в этом смысле являются те, значение энтропии которых ниже (на некоторый порог), чем сумма энтропии каждого из его одномерных подпространств. Используя оба критерия, наиболее «интересные» подпространства для кластеризации подпространства согласно ENCLUS не расположены ни вверху, ни внизу пространства поиска подпространств, а находятся в некоторой средней размерности. В работе [57] предложен алгоритм RIS (Ranking Interesting Subspaces), который позволяет представить этап предварительной обработки для традиционных алгоритмов кластеризации и обнаруживает все «интересные» подпространства высокоразмерных данных, содержащих кластеры. Для изучения всех таких подпространств определяется критерий качества «интересности» подпространства. Подпространства являются «интересными», если они имеют большое количество точек в окрестностях основных точек (т. е. точек с высокой локальной плотностью точек в соответствии с некоторыми пороговыми значениями), нормализованными по ожидаемому количеству точек, предполагающих равномерное распределение. Хотя этот критерий использует основанное на плотности понятие [58] «интересности», он не привязан к конкретному алгоритму кластеризации. Следовательно, ожидается, что эти подпространства окажутся «интересными» для различных алгоритмов кластеризации на основе плотности. Заключение Проведенный анализ методов кластеризации в подпространствах показал, что при их реализации находят широкое применение алгоритмы поиска частых паттернов. Известно, что, как правило, поиск всех частых паттернов бессмыслен, поскольку пользователю нужны только наиболее «информативные» («интересные») зависимости на данных. Аналогичная ситуация наблюдается и при поиске всех подпространств изначально заданного пространства признаков: анализ всех сгенерированных подпространств конечным пользователем практически неосуществим. Следует предоставлять пользователю только те подпространства, которые представляют определенный интерес, в частности, те подпространства, где содержится заданная доля объектов исходной обучающей выборки и где можно разделить ячейки на заданное число кластеров. Значительную пользу для выявления «интересных» подпространств может принести учет дополнительных пользовательских ограничений. Однако в ходе исследований было выявлено, что анализ таких ограничений при развитии существующих методов, основанных на алгоритме Apriori, зачастую сопряжен со снижением их производительности. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. © Зуенко О. Н., Фридман О. В., 2025 50

RkJQdWJsaXNoZXIy MTUzNzYz