Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)
Заключение Автоматическое пополнение онтологий, а именно тематического тезауруса, является на сегодняшний день весьма актуальной задачей онтологического инжиниринга, а также анализа естественно-языковых текстов. Применение дистрибутивных подходов позволяет существенно облегчить данную задачу в автоматизации некоторых этапов анализа текстов в силу простоты их использования. Именно латентно-семантический анализ позволяет выявить статистические зависимости зависимости между терминами, использованными в коллекции документов, что существенно ускоряет процесс поиска кандидатов для пополнения тезауруса. В данной статье приведена технология пополнения тезауруса проекта национального стандарта «Исследования в полярных регионах. Основные термины и определения» на основе одного из дистрибутивных подходов — латентно семантического анализа естественно-языковых текстов. В ходе применения данной технологии удалось выявить слова, которые могут быть рассмотрены в качестве потенциальных кандидатов для пополнения заявленного тезауруса. В дальнейшем планируется доработать текущую технологию путем использования других дистрибутивных подходов и расширенного текстового корпуса. Литература 1. Heidenreich Н. Introduction to Word Embeddings. Режим доступа: https ://towardsdatascience .com/introduction-to-word-embeddings-4cf85 7b 12edc. 2. Landauer Т.К., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes, 25. 1998. C. 259-284. 3. Li S. Topic Modeling and Latent Dirichlet Allocation (LDA) in Python. - Режим доступа: https ://towardsdatascience .com/topic-mode ling-and-latent-dirichlet- allocation-in-python-9bf156893c24. 4. Gensim models - Word2vec. Режим доступа: https://radimrehurek.com/gensim/models/word2vec. 5. InferSent. - Режим доступа: https://github.com/facebookresearch/InferSent. 6. BERT. - Режим доступа: https://github.com/google-research/bert. 7. SpaCy библиотека для обработки естественного языка. Режим доступа: https://spacy.io/. 8. Размеченный в нотации Universal Dependencies русский корпус текстов. Режим доступа: https://github.com/UniversalDependencies/UD_Russian-GSD. Сведения об авторах Малоземова Марина Леонидовна инженер-исследователь e-mail: malozemova@iimm.ru Marina L. Malozemova research engineer Ломов Павел Андреевич K.T.H., старший научный сотрудник e-mail: lomov@iimm.ru Pavel A. Lomov PhD (Tech. Sci.), senior researcher 90
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz