Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

потенциальный экземпляр некоторого класса онтологии. Последний, в свою очередь, рассматривается в качестве назначаемой категории. Клю чевым компонентом технологии является процедура обучения язы ковой модели на основе обучающей выборки, которая автоматически формируется путем поиска в наборе текстов предметной области предложений, содержащих отдельные лексемы и именные гр уппы , соответствующие экземплярам исходной онтологии. Предполагается, что множество найденных предложений представляет конте ксты , которые в и ны х текстах м о гут содержать новые термины , сходные по смыслу с исходными. Далее на сформированной выборке обучается языковая модель из распространенной Python-библиотеки для анализа естественно-языковых текстов spaCy. Впоследствии с помощ ью обученной модели анализируются тексты предметной области с представлением э ксперту обнаруженны х понятий, которые вы ступаю т кандидатами на включение в онтоло гию в качестве экземпляров классов. Общая схема применения техноло гии представлена на рис. 1 j Набор текстов : ■ Сформированный : : Набор текстов : г'" Эксперт j : предметной области j : обучающий набор ; : предметной области ■ ............ * . > Анализ текстов и формирование обучающего набора 4 Обучение языковой модели 4 г > Поиск новых терминов ^ . -< * Пополнение онтологии ......... 1 .......... ........... 1 . ........... ......... 1 .......... : Онтология - Обученная : Онтология ■ языковая модель Рис. 1. Схема применения технологии пополнения онтологии Эффективность предложенной технологии оценивалась в рамках эксперимента по обучению язы ковой модели и ее последующего использования для пополнения онтологии хозяйственной деятельности в А р кти ке [10]. Для обучения модели было собрано и проанализировано около 400 текстов арктической тематики, которые потенциально мо гли содержать понятия, представленные в онтологии в виде экземпляров. В результате был сформирован набор, содержащий около 360 000 примеров. Проверка качества обученной модели производилась на сформированном вручную тестовом наборе аналогичной структуры . Для сравнения оценивалась также и мультиязычная (m u lti-language ) модель из библиотеки spaCy, ориентированная на извлечение имен людей, названий локаций и организаций из новостны х текстов. Были получены следующие результаты: Э ксперимент 1. Обнаружение моделями понятий тестового набора: • мультиязычная модель spaCy: точность = 0.13, полнота = 0.03; • обученная модель: точность = 0.95, полнота = 0.35. Э ксперимент 2. Обнаружения моделями понятий тестового набора, не представленных в онтологии: • мультиязычная модель spaCy: точность = 0.013, полнота = 0.012; • обученная модель: точность = 0.25, полнота = 0.006. 168

RkJQdWJsaXNoZXIy MTUzNzYz