Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

ontology population, neural network, ontology learning. Введение На сегодняшний день применение онтологий в той или иной форме для представления знаний предметной области в рамках информационных систем стало распространенной практикой. Онтология - это формальная, явная спецификация разделяемой концептуализации [1-3]. Концептуализация - это представление объектов, которые существуют в некоторой предметной области, и взаимосвязей между ними. Разделяемая концептуализация - это концептуализация, которую принимает некоторая группа агентов (люди, организации, информационные системы и т. д.). Формальная спецификация - это описание концептуализации с использованием формального языка, такого как Resource Description Framework (RDF), Web Ontology Language (OWL) или Simple Knowledge Organization System (SKOS). Разработка онтологий, как правило, является сложной проблемой, требующей привлечения экспертов предметной области, а также специалистов по онтологическому моделированию. По этой причине предпринимаются попытки автоматизации ее различных аспектов для снижения затрат труда и времени с получением в результате качественной онтологии, отражающей в необходимой степени знания предметной области. Актуальной является и дальнейшая поддержка существующих онтологий для их повторного применения в информационных системах, ориентированных на адаптацию к изменяющимся требованиям пользователей. Решение данных задач рассматривается в рамках проблемы обучения онтологий (ontology learning). В данной работе рассматривается решение задачи автоматического пополнения онтологии информационной системы (ontology population) с применением статистического подхода к анализу естественно-языковых текстов. Данная задача является одной из подзадач обучения онтологий. Она заключается в добавлении в онтологию экземпляров классов без какой-либо модификации ее структуры. Для решения данной задачи предлагается технология обучения и применения нейросетевой языковой модели для обнаружения и извлечения потенциальных экземпляров классов онтологии из текстов предметной области. 1. Обзор существующих подходов к обучению онтологий Обучение онтологии можно рассматривать как реконструирование из текста модели предметной области, изначально сформированной в сознании эксперта - автора текста [4, 5]. Как правило, обучение онтологии предполагает анализ и извлечение из текстов терминов предметной области, их последующую группировку для определения классов онтологии и отношений между ними. В завершении над сформированной системой классов могут быть определены логические ограничения, обнаруженные в текстах. На сегодняшний день подходы к обучению онтологий отличаются техниками, которые применяются на разных этапах формирования онтологии. Эти техники можно разделить на три типа: лингвистические, статистические и логические [6]. На начальном этапе текстовый корпус предварительно обрабатывается с использованием лингвистических техник, таких как тегирование частей речи (part-of- speech tagging), синтаксический разбор и лемматизация. После этого осуществляется Keywords: 39

RkJQdWJsaXNoZXIy MTUzNzYz