Труды КНЦ (Технические науки вып.3/2025(16))
Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. Обзорная статья УДК 004.832 doi:10.37614/2949-1215.2025.16.3.003 АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ КЛАСТЕРИЗАЦИИ В ПОДПРОСТРАНСТВАХ Ольга Николаевна Зуенко1^, Ольга Владимировна Фридман 2 1 2Институт информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук, Апатиты, Россия 1o.zuenko@ksc.ruB, https://orcid.org/0000-0001-5431-7538 2o.fridman@ksc.ru, https://orcid.org/0000-0003-1897-4922 Аннотация В статье приведен аналитический обзор методов кластеризации в подпространствах, которые позволяют обрабатывать данные высокой размерности, характеризующиеся большим количеством признаков и их значений. Методы обеспечивают возможность анализа данных с пропусками и зашумленных данных. Разбиение на кластеры осуществляется не в полном пространстве признаков, а в отдельных его проекциях без замены исходного набора признаков их линейными комбинациями. Это позволяет снизить размерность анализируемого признакового пространства при сохранении возможности интерпретации пользователем результатов кластеризации. Выделены и подробно описаны основные этапы процесса кластеризации в рамках рассматриваемых методов. Уделено внимание вопросу использования дополнительных пользовательских ограничений для повышения точности результирующих разбиений. Проанализированные методы находят широкое применение при решении различных задач интеллектуального анализа данных: при распознавании и обработке изображений, видео, текста, исследованиях генома. Ключевые слова: интеллектуальный анализ данных, кластеризация в подпространствах, дополнительные пользовательские ограничения, высокая размерность признакового пространства Благодарности: работа выполнена в рамках темы научно-исследовательской работы «Методы и информационные технологии мониторинга и управления региональными критическими инфраструктурами Арктической зоны Российской Федерации» (FMEZ-2025-0054). Авторы благодарят А. А. Зуенко за предложения, которые позволили повысить качество работы. Для цитирования: Зуенко О. Н., Фридман О. В. Аналитический обзор методов кластеризации в подпространствах // Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. doi:10.37614/2949-1215.2025.16.3.003. Survey article ANALYTICAL REVIEW OF CLUSTERING METHODS IN SUBSPACES Olga N. Zuenko1^, Olga V. Fridman 2 1, 2Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia 1o.zuenko@ksc.ruB, https://orcid.org/0000-0001-5431-7538 2o.fridman@ksc.ru, https://orcid.org/0000-0003-1897-4922 Abstract The article provides an analytical overview of subspace clustering methods that allow to process high-dimensional data characterized by a large number of features and their values. The methods provide the ability to analyze missing and noisy data. Clustering is performed not in the full feature space, but in its projections, without replacing the original set of features with their linear combinations. This allows reducing the dimensionality of the feature space under consideration while maintaining the ability for the user to interpret the clustering results. The main stages of the clustering process within the considered methods are highlighted and described in detail. Attention is paid to the use of additional user constraints to improve the accuracy of the resulting partitions. The analyzed methods are widely used in various data mining problems, such as image and video recognition, text processing, and genome research. Keywords: data mining, subspace clustering, additional user constraints, feature space of high dimension © Зуенко О. Н., Фридман О. В., 2025 35
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz