Труды КНЦ (Технические науки вып. 7/2023(14))

Acknowledgments: the study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic “ Development of theoretical and organizational and technical foundations of information support for managing the viability of regional critical infrastructures of the Arctic zone of the Russian Federation” (registration number of the research topic 122022800547-3). For citation: Zuenko A. A., Zuenko O. N. Involvement of additional knowledge about subject domain in machine learning problems // Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 16-25. doi:10.37614/2949-1215.2023.14.7.002. Введение С 1980-х гг. начали появляться подходы к решению задач машинного обучения, включающие попытки применения в этом процессе некоторых дополнительных знаний. Такое небольшое нововведение послужило причиной смены подходов и существенно повлияло как на моделирование задач, так и на развитие направления машинного обучения в целом [1]. Использование ограничений в процессе извлечения знаний может быть полезно, по крайней мере, по трем причинам [2]: • фильтрация и организация наборов данных перед применением методов извлечения данных; • повышение производительности алгоритмов извлечения данных путем снижения пространства поиска и сосредоточении на самом поиске; • анализ результатов на шаге извлечения для их уточнения и представления улучшенного вида извлеченных моделей. Далее рассматривается возможности и польза от привлечения дополнительных ограничений при решении задач кластеризации, классификации, извлечения ассоциативных правил из обучающей выборки. Использование дополнительных знаний в задачах кластеризации Дополнительные фоновые знания положительно влияют на решение задачи кластерного анализа, повышая его эффективность и точность. Extra Knowledge или фоновые знания могут быть представлены различным образом. Это может быть множество помеченных объектов, т. е. объектов, которым присвоена метка класса, в который они должны попасть, связь между объектами, количество кластеров, размер кластеров и т. д. Задача классического кластерного анализа — это задача разбиения множества объектов на классы, когда какая-либо априорная информация о принадлежности объектов этим классам отсутствует. Задача кластеризации с частичным привлечением учителя использует некоторые фоновые знания из предметной области. При этом количество классов и сами классы неизвестны, но для некоторых пар объектов известно, например, что они попадают или не попадают в один кластер. Поэтому задача называется задачей кластеризации с частичным привлечением учителя (semi-supervised clustering). Часто отнесение двух объектов в один кластер только лишь на основе метрики является семантически некорректной операцией. Основным недостатком большинства существующих методов кластеризации является невозможность учитывать пользовательские ограничения на то, какие объекты обязательно должны или, наоборот, не должны попадать в один кластер. Процесс кластеризации можно сделать гораздо эффективнее, если при отнесении объектов к одному или различным кластерам анализировать не только расстояния между объектами, но и значения их признаков. Основная идея состоит в том, чтобы использовать фоновые или базовые знания из предметной области. Эти знания предложено представлять в виде пользовательских ограничений, которые могут быть двух уровней: • ограничения на пары объектов кластеров (instance-level constraints); • ограничения на кластеры (cluster-level constraints), указывающие требования к кластерам. Все методы, учитывающие ограничения на объекты [3], можно разделить на: • основанные на ограничениях, • основанные на расстоянии. Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 16-25. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 16-25. © Зуенко А. А., Зуенко О. Н., 2023 17

RkJQdWJsaXNoZXIy MTUzNzYz