Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)
повысить разнообразие входящих в него образцов. Для этого планируется усовершенствовать работу краулера в отношении сбора информации непосредственно с веб-страниц специализированных сайтов, блогов и форумов. Наряду с этим планируется рассмотреть использование имен отношений, заданных между классами в онтологии, для обнаружения контекстов употребления в текстах экземпляров этих классов. Перспективным также выглядит применение техник аугментации данных (data augmentation) в отношении уже сформированного обучающего набора [22] для его расширения путем генерации дополнительных правильно размеченных образцов на основе имеющихся. Заключение Обучение онтологий является многоаспектной проблемой, для решения которой можно применять различные стеки технологий, методов и программных средств в зависимости от постановки задачи обучения (создание онтологии с нуля, расширение структуры существующей онтологии новыми классами и отношениями, пополнение онтологии экземплярами), структурированности исходных данных, требуемой степени автоматизации и качества онтологии, получаемой в результате. В данной работе предлагается высокоавтоматизированная технология для решения задачи пополнения экземплярами уже существующей онтологии с применением лингвистических и статистических методов анализа естественно языковых текстов. Технология предполагает автоматический сбор и формирование набора тематических текстов и их анализ с применение традиционных техник NLP (токенизация, лемматизация, синтаксический анализ) для поиска предложений, которые определяют контексты употребления названий экземпляров из исходной онтологии. На основе отобранных предложений формируется набор примеров для обучения языковой модели на основе сверточной нейронной сети, ориентированной на решение задачи извлечение именованных сущностей. Соответствие исходных текстов и обучающих примеров тематике наполняемой онтологии обосновывается использованием ее элементов - наименований экземпляров и классов при формировании соответствующих наборов. В результате обучения модель обобщает представленные контексты, что позволяет ей находить понятия, употребляемые в сходных контекстах в других текстах предметной области. Предполагается, что некоторые из этих понятий будут представлять новые экземпляры для включения в онтологию. Экспериментальная проверка предложенной технологии показала положительный эффект в отношении нахождения понятий онтологии в произвольных текстах предметной области. Однако для полноценного ее использования необходимо увеличить количество обучающих примеров и их разнообразие. Это и определяет дальнейшее направление данного исследования. Предложенная технология может применяться при повторном использовании онтологий для их актуализации и/или приведения их содержания в соответствие с задачами использующих их информационных систем. Высокая автоматизации технологии позволяет при этом снизить трудозатраты экспертов предметной области, обеспечивающих поддержку онтологий, и тем самым удешевить разработку и эксплуатацию информационных систем на основе онтологий. 44
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz