Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 22-34. Transactions of the Kila Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 22-34. Научная статья УДК 004.853 DOI: 10.37614/2307-5252.2021.5.12.002 АУГМЕНТАЦИЯ ОБУЧАЮЩЕГО НАБОРА ПРИ ОБУЧЕНИИ НЕЙРОСЕТЕВОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ НАПОЛНЕНИЯ ОНТОЛОГИИ* Павел Андреевич Ломов Марина Леонидовна Малоземова 2 12 Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия 1lomov@iimm.ruB, https://orcid.org/0000-0002-0924-0188 2malozemova@iimm.ru, https://orcid. org/0000-0002-4358-2683 Аннотация Данная работа является продолжением исследования, ориентированного на решение задачи наполнения онтологии с помощью обучения на автоматически формируемом обучающем наборе и последующего применения нейросетевой языковой модели для анализа текстов с целью обнаружения в них новых понятий для добавления в онтологию. Статья посвящена проблеме автоматического увеличения размера обучающего набора путем аугментации входящих в него образцов. Наряду с этим рассматривается решение проблемы уточнения найденных понятий (корректировка их границ в предложениях), которые были найдены при автоматическом создании обучающего набора. Представлен краткий обзор существующих подходов к аугментации текстовых данных, а также подходов к извлечению вложенных именованных сущностей (nested NER). Предложена процедура уточнения границ обнаруженных понятий обучающего набора и его аугментации для последующего обучения и применения нейросетевой языковой модели с целью выявления новых понятий онтологии в текстах предметной области. Рассмотрены результаты экспериментальной оценки обученной модели на аугментированном наборе и основные направления дальнейшего исследования. Ключевые слова: аугментация данных, нейронная сеть, наполнение онтологий Финансирование Работа выполнена в рамках выполнения гос. задания по теме НИР № 0226-2019-0036. При поддержке Российского фонда фундаментальных исследований, проект № 20-07 00754 А. Для цитирования: Ломов П. А., Малоземова М. Л. Аугментация обучающего набора при обучении нейросетевой языковой модели для наполнения онтологии // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 22-34. http://dx/doi.org/10.37614/2307-5252.2021.5.12.002. Original article TRAINING SET AUGMENTATION IN TRAINING NEURAL-NETWORK LANGUAGE MODEL FOR ONTOLOGY POPULATION Pavel A. L om o v 1B, Marina L. Malozemova 2 12 3 Institute for Informatics and Mathematical Modeling Kola Science Centre o f the Russian Academy of Sciences, Apatity, Russia 1lomov@iimm.ruB, https://orcid.org/0000-0002-0924-0188 2malozemova@iimm.ru, https://orcid.org/0000-0002-4358-2683 22