Труды КНЦ (Технические науки) 2/2022(13).

Результаты обнаружения таксономических отношений оказались более высокими, что указывает на целесообразность использования эвристик для уточнения важных для формирования базовой структуры онтологии типов отношений (is-kind-of, part-of, depend-on). Таким образом, предложенная процедура извлечения отношений может быть использована в качестве дополнительного шага в разработанной ранее технологии наполнения онтологии, а также для формирования иерархии понятий в процессе обучения онтологий. Заключение В данной работе рассматривается проблема извлечения отношений из текстов по тематике предметной области с целью их последующего добавления в существующую онтологию. В качестве решения предложена процедура, которую предполагается использовать для расширения предложенной ранее технологии применения нейросетевых моделей для обучения онтологий. Представленная процедура ориентирована на поиск отношений в предложениях, в которых на предыдущих этапах технологии были обнаружены понятия предметной области — кандидаты на включение в онтологию. В рамках данной процедуры производится анализ синтаксического дерева предложения с целью выявления именных групп и рассмотрения их возможных интерпретаций в виде пар понятий предметной области, связанных между собой отношением. При этом определение слов внутри именной группы, представляющих вероятные понятия предметной области, производится путем оценки близости различных комбинаций слов (N-грамм) к исходному набору понятий онтологии в векторном пространстве. Последнее представляется отдельной Word2Vec-моделью, обученной на наборе текстов, релевантных предметной области онтологии. Полученные результаты экспериментов говорят о необходимости в первую очередь улучшения фильтрации формируемых N-грамм. Для этого предполагается проанализировать влияние на получаемый результат различных значений метапараметров Word2Vec-модели, а также рассмотреть возможность ее замены и/или дополнения бинарным классификатором для получения более точной оценки близости при выполнении фильтрации. Список источников 1. Gruber T. R. A translation approach to portable ontology specifications // Knowledge Acquisition. 1993. Vol. 5, № 2. P. 199-220. 2. Lomov P., Malozemova M., Shishaev M. Training and application of neural-network language model for ontology population // Software engineering perspectives in intelligent systems / ed. Silhavy R., Silhavy P., Prokopova Z. Cham: Springer International Publishing, 2020. P. 919-926. 3. Lomov P., Malozemova M., Shishaev M. Data Augmentation in Training Neural-Network Language Model for Ontology Population // Data Science and Intelligent Systems / ed. Silhavy R., Silhavy P., Prokopova Z. Cham.: Springer International Publishing, 2021. P. 669-679. 4. Hearst M. A. Automated Discovery ofWordNet Relations // WordNet: An Electronic Lexical Database. MIT Press. Cambridge, 1998. P. 26. 5. Garcia M., Gamallo P. AWeakly-Supervised Rule-Based Approach for Relation Extraction. 2011. P. 10. 6. Mintz M. et al. Distant supervision for relation extraction without labeled data // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore: Association for Computational Linguistics, 2009. P. 1003-1011. 7. Ren X. et al. CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases // Proceedings of the 26th International Conference on World Wide Web. Perth Australia: International World Wide Web Conferences Steering Committee, 2017. P. 1015-1024. 8. Implementation of the Brown word clustering algorithm [Электронный ресурс]. URL: https://github.com/percyliang/brown-cluster (дата обращения: 23.12.2021). 9. Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv:1810.04805 [cs]. 2018. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 23-30. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. © Ломов П. А., Никонорова М. Л., Шишаев М. Г., 2022 28

RkJQdWJsaXNoZXIy MTUzNzYz