Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Abstract This paper is a continuation of the research focused on solving the problem of ontology population using training on an automatically generated training set and the subsequent use of a neural-network language model for analyzing texts in order to discover new concepts to add to the ontology. The article is devoted to the text data augmentation - increasing the size of the training set by modification of its samples. Along with this, a solution to the problem of clarifying concepts (i.e. adjusting their boundaries in sentences), which were found during the automatic formation of the training set, is considered. A brief overview of existing approaches to text data augmentation, as well as approaches to extracting so-called nested named entities (nested NER), is presented. A procedure is proposed for clarifying the boundaries of the discovered concepts of the training set and its augmentation for subsequent training a neural-network language model in order to identify new concepts of ontology in the domain texts. The results of the experimental evaluation of the trained model and the main directions of further research are considered. Keywords: data augmentation, neural network, ontology population Funding The article was supported by the federal budget to carry out the state task of the FRC KSC RAS No. 0226-2019-0036. The study was funded by RFBR, project number 20-07-00754 A. For citation: Lomov P. A., Malozemova M. L. Training set augmentation in training neural-network language model for ontology population // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 22-34. http://dx/doi.org/10.37614/2307-5252.2021.5.12.002. Введение Данная работа является продолжением исследования [1], направленного на автоматическую генерацию обучающего набора на основе анализа текстов предметной области и его использования для обучения нейросетевой модели, ориентированной на решение одной из подзадач обучения онтологий - задачи наполнения онтологии. Упоминаемая проблема обучения онтологий заключается в анализе естественно-языковых текстов с последующем извлечением из них концептов и отношений, а также логических выражений (аксиом) с последующим формированием онтологии [2]. Наполнение онтологии предполагает добавление в существующую онтологию новых экземпляров для заданных в ней классов без изменения структуры онтологии. В предыдущей работе была предложена технология, предполагающая анализ онтологии для формирования списка ее понятий, сбор и анализ текстов, относящихся к предметной области онтологии, с формированием обучающего набора размеченных предложений. Далее данный набор применялся для обучения нейросетевой языковой модели, ориентированной на решение задачи извлечения именованных сущностей (NER). Модель впоследствии применялась для извлечения из текстов новых понятий - кандидатов на добавление в онтологию. Ввиду того, что в основе предложенной технологии лежит обучение с учителем, необходимо обеспечить достаточно большой объем обучающего набора для успешного обучения. Одним из способов его увеличения является аугментация данных, которая предполагает автоматическое создание новых образцов путем некоторого изменения имеющихся. Это позволяет в некоторой степени повысить эффективность обучения и результативность модели. В данной работе рассматривается проблема аугментации сгенерированного набора для повышения полноты и точности получаемой на его основе языковой модели в отношении обнаружения в текстах возможных новых элементов онтологии - классов и экземпляров. При этом важно обеспечить 23

RkJQdWJsaXNoZXIy MTUzNzYz