Труды КНЦ (Технические науки вып.3/2025(16))
Acknowledgments: The study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic “Methods and information technologies for monitoring and managing regional critical infrastructures in the Arctic zone of the Russian Federation” (registration number of the research topic FMEZ-2025-0054). The authors thank A. A. Zuenko for the suggestions that improved the quality of the work. For citation: Zuenko O. N., Fridman O. V. Analytical review of subspace clustering methods. Trudy Kol'skogo nauchnogo centra RAN. Seriya: Tekhnicheskie nauki [Transactions of the to la Science Centre of RAS. Series: Engineering Sciences], 2025, Vol. 16, No. 3, pp. 35-55. doi:10.37614/2949-1215.2025.16.3.003. Введение Кластеризация является описательной задачей, нацеленной на идентификацию однородных групп объектов на основе значений их атрибутов (измерений) [1; 2]. Методы кластеризации широко изучались в статистике [3], распознавании образов [4; 5] и машинном обучении [6; 7]. Методы кластеризации можно в целом разделить на две категории [1; 2]: плоские и иерархические. При наличии набора объектов и критерия кластеризации плоские методы кластеризации обеспечивают разделение объектов на кластеры таким образом, что объекты в кластере более похожи друг на друга, чем объекты в разных кластерах. Иерархическая кластеризация представляет собой вложенную последовательность разбиений объектов. Агломеративная иерархическая кластеризация начинается с помещения каждого объекта в его собственный кластер, а затем осуществляется объединение этих атомарных кластеров в более крупные кластеры. Разделительная (дивизимная), иерархическая кластеризация представляет собой обратный процесс, который начинается с помещения всех объектов в один кластер с дальнейшим разбиением его на более мелкие части [1]. Стремительный рост объемов данных, характеризующихся сложностью, разрозненностью и нелинейностью, требует разработки новых методов для извлечения из них знаний, включая методы кластеризации данных высокой размерности. Каждый объект данных может характеризоваться десятками атрибутов (измерений), и каждому атрибуту может соответствовать домен, содержащий большое количество значений. Такая ситуация часто возникает при распознавании и обработке изображений [8], видео [9], текста [10] или при исследованиях генома [11]. Большое количество атрибутов, соответствующих каждому объекту, приводит к тому, что данные становятся разреженными, так как множества объектов не могут совпадать по всем измерениям [12]. Усугубляет эту проблему то, что многие измерения или комбинации измерений могут содержать шум или значения, которые равномерно распределены. Поэтому метрики расстояния, которые используют все измерения данных, могут быть неэффективными. Гораздо проще ориентироваться в структуре данных, если выполнять кластеризацию по подпространствам. Этот процесс называется кластеризацией в подпространствах [13]. При использовании данной методологии сходство объектов ищется не по всем атрибутам, а лишь по некоторым их подмножествам. Выборка должна включать семантически значимые атрибуты, что важно для интерпретации результатов кластеризации. Вычисление сходства объектов и распределение их на кластеры выполняются в подпространствах, причем в каждом подпространстве производится отдельная кластеризация, которая не зависит от атрибутов других подпространств. Главная сложность кластеризации данных высокой размерности состоит в адекватной оценке сходства объектов. Идея методов кластеризации в подпространствах заключается в том, что объекты кластеров не обязательно должны иметь сходство по всем атрибутам, но должны обладать сходством по некоторому подмножеству атрибутов, при этом считается, что остальные не имеют отношения к структуре кластера [14]. Нет смысла искать кластеры в таком многомерном пространстве, поскольку средняя плотность точек в любом месте пространства данных, скорее всего, будет довольно низкой [15]. Кластеризация — это задача обучения без учителя, то есть объекты группируются в кластеры при отсутствии какой-либо априорной информации об их распределении. Кластеризация в подпространствах — это задача кластеризации, в которой отсутствует какая-либо априорная информация о количестве подпространств, содержащих кластеры, размерности этих подпространств и количестве кластеров, скрытых в каждом подпространстве [16]. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. © Зуенко О. Н., Фридман О. В., 2025 36
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz