Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

извлечение терминов предметной области. Для этого используются различные методы обработки естественного языка (NLP), такие как синтаксический анализ, фреймы субкатегоризации (subcategorization frames) и поиск с применением “seed words” [7], а также некоторые статистические методы текстового анализа, такие как выявление терминов, состоящих из нескольких слов, с помощью C-value/NC-value, сравнительный анализ [8], анализ смежности (co-occurrence analysis), латентно семантический анализ (LSA) и кластеризация [9]. На следующем этапе необходимо сформировать структуру онтологии. Это предполагает выявление таксономических и нетаксономических отношений между найденными на предыдущем этапе терминами. Для этого также используются различные лингвистические и статистические методы обработки текстовой информации, такие как анализ зависимостей (dependency analysis), лексико-синтаксический анализ, категоризация терминов (term subsumption), анализ формальных понятий (formal concept analysis, FCA), иерархическая кластеризация (агломеративная [10] и разделяющая [11]) и анализ правил ассоциации (association rule mining, ARM). Для формирования логических ограничений или правил на заключительном этапе могут применяться приемы индуктивного логического программирования (inductive logic programming, ILP) [12], позволяющие на основе элементов и отношений полученной онтологии выводить новые отношения в виде гипотез. Среди известных программных средств, ориентированных на обучение онтологий, можно выделить: • CRCTOL (Concept-Relation-Concept Tuple-based Ontology Learning) [13]. Данная система производит синтаксический анализ текста с присвоением его лексемам тегов частей речи и синтаксических тегов. Далее для формирования онтологии к нему применяется следующий набор алгоритмов: статистический алгоритм для извлечения ключевых понятий; алгоритм устранения неоднозначности найденных понятий; алгоритм на основе лексико синтаксических паттернов для извлечения отношений. • OntoGain [14]. Система для получения онтологий из текста, состоящая из следующих основных модулей: модуль предварительной обработки, выполняющий задачи синтаксического анализа; модуль извлечения понятий предметной области; модуль формирования таксономии обнаруженных понятий; модуль для извлечения нетаксономических отношений на основе ассоциативных правил [15]. • OntoLearn [16]. Система для автоматического формирования онтологии на основе извлеченных из текста понятий предметной области. Понятия извлекаются на основе статистических и NLP-методов [17]. Далее производится поиск определений найденных понятий в тезаурусах и текстах предметной области, их синтаксический анализ с отсевом нерелевантных. На основе результатов анализа определений формируется таксономия понятий. Предлагаемая в данной работе технология ориентирована на решение одной из подзадач обучения онтологий, а именно пополнение онтологии. Таким образом, для своего применения она требует наличия уже существующей онтологии, с заданной системой понятий и отношений между ними. Технология предполагает использование лингвистических методов (токенизация, 40