Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

лемматизация, синтаксический анализ) для предобработки текстов и формирования обучающей выборки с последующим обучением и применением нейросетевой языковой модели, ориентированной на решение задачи распознавания именованных сущностей (Named Entity Recognition, NER). 2. Описание предлагаемой технологии пополнения онтологии Предлагаемая технология предполагает использование существующих в онтологии понятий для обнаружения в текстах предметной области семантически близких к ним новым понятиям. Близость в данном случае следует из употребления понятий в сходных контекстах, которые представляются похожими по структуре предложениями текста. Для выявления таких предложений, содержащих понятия предметной области, выполняется анализ текстов с помощью языковой модели, основанной на нейронной сети, изначально ориентированной на решении задачи NER. Данная задача состоит в выделении и классификации именованных сущностей в тексте. Именованная сущность - это слово или словосочетание обозначающее объект, который можно отнести к определенной категории. Примерами именованных сущностей являются имена людей, названия организаций и локаций. В предлагаемой технологии роль распознаваемой сущности играет потенциальный экземпляр некоторого класса онтологии. Последний, в свою очередь, рассматривается в качестве назначаемой категории. Ключевым компонентом технологии является процедура обучения языковой модели на основе обучающей выборки, которая автоматически формируется путем поиска в наборе текстов предметной области предложений, содержащих отдельные лексемы и именные группы, соответствующие экземплярам исходной онтологии. Предполагается, что множество найденных предложений представляет контексты, которые в иных текстах могут содержать новые термины, сходные по смыслу с исходными. Далее на сформированной выборке обучается языковая модель из распространенной Python-библиотеки для анализа естественно-языковых текстов spaCy. Впоследствии с помощью обученной модели анализируются тексты предметной области с представлением эксперту обнаруженных понятий, которые выступают кандидатами на включение в онтологию в качестве экземпляров классов. Общая схема применения технология представлена на рис. 1. і Набор текстов : : предметной области ■ ■ Сформированный j j Набор текстов : Эксперт * ..................... I. . . . . . . .................! ......................... ..... і ..... Анализ текстов и формирование обучающего набора ѵ-------------------- -------- 4 Г 1 Обучение языковой модели L J 4 г ^ Поиск новых терминов ^ т ^ 4 •. _ Пополнение онтологии : Онтология ■ • Обученная \ : Онтология ■ : языковая модель : Рис. 1. Схема применения технологии пополнения онтологии 41

RkJQdWJsaXNoZXIy MTUzNzYz