Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Keywords: neural network, ontology population, ontology learning Funding The study was funded by RFBR, project number 20-07-00754 A. For citation: Lomov P. A., Malozemova M. L. Technology of training a neural-network model for ontology population // ^ansactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 166-170. http://dxZdoi.org/10.37614/2307- 5252.2021.5.12.016. Н а сегодняш ний день применение онтологий в той или иной форме для представления знаний предметной области в рам ках информационных систем стало распространенной практи кой . Онтология - это формальная, явная спецификация общей концептуализации [1 ,2 ]. Однако разработка онтологий является сложной проблемой, требующ ей привлечения экспертов предметной области, а также специалистов по онтологическом у моделированию . По этой причине предпринимаются по пы тки автоматизации ее различных аспектов для снижения затрат труда и времени с получением в результате качественной онтологии , отражающей в необходимой степени знания предметной области. Решение данны х проблем рассматривается в рамках задачи обучения онтологий (on to logy lea rn ing ), ко тор ую можно рассматривать ка к реконструирование из текста модели предметной области, изначально сформированной в сознании эксперта - автора текста [3 ,4 ]. К а к правило, обучение онтологии предполагает анализ и извлечение из текстов терминов предметной области, и х последующ ую гр уппи ро в ку для определения классов онтологии и отнош ений между ними. Подходы к обучению онтологий отличаются техниками, которые применяются на разных этапах анализа текстов и формирования онтологии. Среди данны х техни к можно выделить: тегирование частей речи (part-of-speech tagging), синтаксический разбор и лемматизация, извлечение терминов с помощ ью фреймов субкатегоризации (subcategorization frames) и “ посева” слов (seed words) [5 ], сравнительного анализа [6 ], анализа смежности (co-occurrence analysis), латентно-семантического анализа (LS A ) и кластеризации [7 ], формирование структуры онтологии путем анализа зависимостей (dependency analysis), категоризации терминов (term subsumption), анализа формальных понятий (fo rm a l concept analysis, FC A ), иерархической кластеризации (агломеративной [8] разделяющей [9 ]) и анализа ассоциативных правил (association rule m in ing ). Предлагаемая в данной работе технология ориентирована на решение одной из подзадач обучения онтологий , а именно пополнение онтологии экземплярами классов, предполагает использование сущ ествующ их в онтологии понятий для обнаружения в текстах предметной области семантически бли зких к ним новы х понятий. Близость в данном случае следует из употребления понятий в сходны х контекстах, которые представляются по хож им и по структуре предложениями текста. Для выявления та ки х предложений, содержащих понятия предметной области, выполняется анализ текстов с помощ ью язы ковой модели, основанной на нейронной сети, изначально ориентированной на решении задачи распознавания именованных сущностей (Named E n tity Recognition, NER ). Данная задача состоит в выделении и классификации именованных сущ ностей в тексте. В предлагаемой технологии роль распознаваемой сущ ности играет 167

RkJQdWJsaXNoZXIy MTUzNzYz