Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Заключение Обучение онтологий на сегодняшний день продолжает оставаться актуальной проблемой при разработке современных информационных систем, ориентированных на представление и оперирование знаниями предметной области. Использование существующих технологий NLP и машинного обучения имеет большой потенциал в отношении автоматизации связанных с этим задач - от сбора, предобработки и анализа естественно-языковых текстов до формирования начальной структуры понятий онтологии и ее последующего усложнения. В данной работе рассмотрено расширение предложенной ранее технологии, ориентированной на решение задачи наполнения существующей онтологии новыми экземплярами классов, которые извлекаются из текстов предметной области с помощью обученной нейросетевой языковой модели. В качестве дополнительных шагов предложено при формировании обучающего набора производить уточнение понятий. Это предполагает анализ предложений, содержащих исходное понятие онтологии, и расширение его границ путем включения в него некоторых дополнительных токенов, связанных с ним. Это, с одной стороны, позволило представить понятие онтологии в том виде, в котором оно встречалось в анализируемых текстах, а с другой - скорректировать его контекст, распознавать который обучается модель. Другим предложенным шагом стало выполнение аугментации предложений, которое предполагало замену некоторых токенов, не входящих в состав уточненного понятия, на вариант, предложенный предобученной языковой моделью-трансформером, способной представлять контекстуализированные векторные представления слов. В результате экспериментов было установлено, что уточнение понятий положительно сказывается на обнаружении новых понятий в тех контекстах, которые были представлены в предложениях обучающего набора. В дальнейшем планируется само уточнение понятий производить с учетом онтологического контекста, который описывает положение исходного понятия в онтологии. Это позволит проинтерпретировать токены, обнаруженные в ходе уточнения, как еще одно возможное понятие онтологии, которое также следует представить в обучающем наборе. Последнее обстоятельство может потребовать повторения этапа анализа текстов для включения предложений с такими понятиями в обучающий набор. Кроме того, планируется рассмотреть возможность включения онтологического контекста в метку, что позволит при использовании обученной модели не только обнаруживать понятия, но и указывать их возможное положение в онтологии (подкласс класса, экземпляр класса, носитель свойства, значение свойства и т.д.). В отношении развития предложенной процедуры аугментации планируется рассмотреть возможность генерации новых образцов (текстовых предложений) путем изменения структуры исходных, то есть заменой/добавлением/удалением их частей (наборов синтаксически связанных токенов). Помимо проблемы определения изменяемой части и генерации заменяющей части, актуальной станет проблема проверки семантической корректности результата. Однако выполнение такой аугментации позволит 31

RkJQdWJsaXNoZXIy MTUzNzYz