Труды КНЦ (Технические науки) 2/2022(13).
Acknowledgments: the study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic “Methodology for creating information and analytical systems to support the management of regional development based on formative artificial intelligence and big data” (registration number of the research topic 122022800551-0). For citation: Lomov P. A., Nikonorova M. L., Shishaev M. G. Extracting relations from NER-tagged sentences for ontology learning // Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. doi:10.37614/2949-1215.2022.13.2.002 Введение На сегодняшний день задача извлечения отношений из неструктурированных текстовых данных является довольно актуальной при решении различного рода прикладных задач обработки естественного языка (Natural Language Processing, NLP). В частности, задача извлечения отношений предполагает обнаружение в текстовых данных отношений между сущностями. Они могут быть представлены в виде троек <субъект, отношение, объект>, которые могут быть извлечены с помощью подходов, предполагающих использование лексико-синтаксических шаблонов, автоматических или созданных вручную правил (эвристик), а также с помощью методов машинного обучения (нейронные сети). Извлечение отношений является одним из ключевых этапов в процессе разработки онтологий. Под онтологией понимается концептуальная модель предметной области, разделяемая некоторой группой агентов (люди, организации, информационные системы и т. д.) [1]. Разработка онтологий рассматривается в рамках процесса обучения онтологий (ontology learning), который включает в себя такие шаги, как извлечение таксономических и нетаксономических отношений из текста. Извлечение таксономических отношений позволяет построить основную иерархию обнаруженных в текстах предметной области концептов, а извлечение нетаксономических отношений позволяет отразить предметные связи между ними. В данной работе рассматривается проблема извлечения отношений из текстов по предметной области с целью дальнейшего их добавления в онтологию. При этом извлечение производится из тех предложений, в которых с помощью ранее предложенной технологии [2, 3] были обнаружены возможные понятия онтологии. Поэтому здесь рассматривается последующее использование полученного набора предложений с метками, указывающими положение найденных понятий. Предыдущая работа В прошлой работе [2] была предложена технология, предполагающая анализ онтологии для формирования исходного списка ее понятий, сбор и анализ текстов, относящихся к предметной области онтологии, с формированием в результате обучающего набора размеченных предложений. Метка, присваиваемая предложению, в этом случае содержала границы обнаруженного в нем понятия и его категорию. Далее данный набор применялся для обучения нейросетевой языковой модели, ориентированной на решение задачи извлечения именованных сущностей. Модель впоследствии применялась для извлечения из текстов новых понятий — кандидатов на добавление в онтологию. В работе [3] в технологию были добавлены шаги «уточнения» понятий и аугментации полученного набора. Шаг уточнения предполагал включение в состав понятия некоторых синтаксически связанных с ним слов предложения. Например, уточнение понятия «аэропорт» до «Международный аэропорт Шереметьево» в предложении «Международный аэропорт Шереметьево является крупнейшим в России». Это позволяло точнее скорректировать границы понятия в предложениях обучающего набора и тем самым правильно задать контекст его употребления, что положительно сказалось при обучении модели. Аугментация, в свою очередь, предполагала генерацию новых образцов — размеченных предложений путем замены некоторых комбинаций слов из контекста понятия на альтернативные, предложенные предобученной общеязыковой BERT-моделью для русского языка. Это также давало некоторое (незначительное по сравнению с уточнением понятий) улучшение результативности модели. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 23-30. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. © Ломов П. А., Никонорова М. Л., Шишаев М. Г., 2022 24
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz