Труды КНЦ (Технические науки вып. 7/2023(14))

Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 16-25. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 16-25. меру различия набора данных. Авторы отмечают, что триплетные ограничения дают больше информации о различиях, чем попарные ограничения. Они задаются следующим образом: d C(x ' , x\) > d C(x ' , x\ ) „ т. = ( x!, x ' , x ' ) i = 1 r w 3’ w w 2 ’ \> , где ' v ^ ^ ^ — это триплет; ' r . Еще одним способом применения фоновых знаний является использование небольшого набора помеченных объектов, т. е. объектов, которым присвоена метка кластера, в который они должны попасть. В работе [10] используется множество объектов, которыми «засеиваются» или, иными словами, инициализируются кластеры. А также ограничения, которые генерируются на основании помеченных данных. Удачным образом произведенная инициализация в дальнейшем может помочь алгоритму избежать застревания в локальном оптимуме, поскольку соответствует пользовательскому определению кластеров. Для этого желательно, чтобы помеченные данные представляли все имеющиеся категории. Но не обязательно, поскольку алгоритм кластеризации способен не только группировать данные, но также при необходимости расширять и изменять имеющееся множество категорий, чтобы обеспечить разбиение, которое отражает существующие закономерности в данных. В таком подходе применяется два алгоритма: Seeded k-means и Constrained k-means. Для первого алгоритма помеченные объекты используются только на этапе для инициализации кластеров, а затем разбиение обновляется в процессе кластеризации согласно алгоритму k-means. Во втором случае они распределяются по назначенным им кластерам и уже не могут менять кластер во время работы k-means, а алгоритм выполняет распределение только непомеченных объектов. Выбор между этими двумя алгоритмами делается на основании знаний о шуме, присутствующем в наборе данных. Использование дополнительных знаний в задачах классификации Решение традиционной задачи классификации происходит в два шага. На первом строится модель, которая ставит в соответствие каждому объекту заданного множества метку класса. На втором шаге полученная модель используется для классификации новых объектов. Такая классификация может выполняться при помощи деревьев решений. Покажем, как представление результатов алгоритма интеллектуального анализа данных (классифицирующее дерево решений), представление дополнительных знаний предметной области (ограничений) и выбор метода рассуждения (абдукция) может существенно улучшить поведение и результаты классификации [11]. Абдукция — это вид логического вывода, при котором из факта того, что из A следует B и из наблюдения B , можно вывести A . Абдукцию можно рассматривать как принятие гипотезы в качестве объяснения наблюдаемых фактов в соответствии с известными законами. В последние годы абдуктивный вывод широко изучается и применяется в логическом программировании [12]. Схема абдуктивного логического программирования состоит из трех компонент (P, A, Ic), логической программы P , множества базовых абдуктивных гипотез A , которые должны объяснять наблюдения в контексте P , и множества ограничений целостности Ic , которые должны удовлетворяться. Формально определение абдуктивного объяснения выглядит следующим образом [11]. Пусть (P, A, Ic) — абдуктивная схема, G — цель. Тогда абдуктивное объяснение G — это множество AcA базовых гипотез таких, что: • P u A ^ G; • P u A u Ic совместно. Данное определение может быть обобщено на исходное множество гипотез A 0 . Пусть (P, A, Ic) — абдуктивная схема, A 0 — множество гипотез, а G — это цель. Тогда A является абдуктивным объяснением G, с учетом A 0 , если A 0 u A является абдуктивнм объяснением G. Необходимо заметить, что заданное множество гипотез A 0 должно быть совместным с ограничениями Ic. Одним из способов использования абдуктивного вывода для решения задачи классификации с недостающей информацией является добавление экспертных знаний о предметной области. Учет знаний о предметной области в стандартных алгоритмах классификации на основе дерева решений может быть непростым и потребовать существенных модификаций этих алгоритмов. С другой © Зуенко А. А., Зуенко О. Н., 2023 19