Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 10-21. Transactions of the toila Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 10-21. Научная статья УДК 004.8 DOI: 10.37614/2307-5252.2021.5.12.001 ДВУХЭТАПНАЯ ТЕХНОЛОГИЯ ВЫДЕЛЕНИЯ ЗНАЧИМЫХ ПОНЯТИЙ ИЗ ТЕКСТОВ, ОСНОВАННАЯ НА ТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ И АНАЛИЗЕ КОНТЕКСТА* Максим Геннадьевич Ш иш аев1ІЯ, Владимир Витальевич Диковицкий 2, Павел Андреевич Ломов 3 1■2■3Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия 1 shishaev@iimm.ruB, https://orcid.org/0000-0001-7070-7878 2 dikovitsky@iimm.ru, https://orcid.org/0000-0003-0329-9979 3lomov@iimm.ru, https://orcid.org/0000-0002-0924-0188 Аннотация В работе рассматривается задача автоматизированного извлечения значимых понятий предметной области из текстов на естественном языке. Предложена двухэтапная технология ее решения, основанная на моделировании тематики и анализе контекста употребления лексических единиц. Представлены результаты экспериментальной проверки технологии и перспективы ее дальнейшего развития. Ключевые слова: семантический анализ текста, выделение понятий, машинное обучение, моделирование тематики, анализ контекста Финансирование Работа выполнена в рамках выполнения гос. задания по теме НИР № 0226-2019-0036. При поддержке Российского фонда фундаментальных исследований, проект №20-07 00754 А. Для цитирования: Шишаев М. Г., Диковицкий В. В., Ломов П. А. Двухэтапная технология выделения значимых понятий из текстов, основанная на тематическом моделировании и анализе контекста // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 10-21. http://dx/doi.org/10.37614/2307-5252.2021.5.12.001. Original article TWO-STAGE TECHNOLOGY OF AUTOMATED TERMINOLOGY EXTRACTION BASED ON TOPIC MODELING AND CONTEXT ANALYSIS Maksim G. S h ish ae v 1B, V ladim ir V. D ikovitsky 2, Pavel A. Lomov 3 12 3 Institute for Informatics and Mathematical Modeling Kola Science Centre o f the Russian Academy of Sciences, Apatity, Russia 1 shishaev@iimm.ruB, https://orcid.org/0000-0001-7070-7878 2 dikovitsky@iimm.ru, https://orcid.org/0000-0003-0329-9979 3lomov@iimm.ru, https://orcid.org/0000-0002-0924-0188 Abstract The paper deals with the task of automated terminology extraction. A two-stage technology for its solution is proposed, based on topic modeling and analyzing the context of the use of lexical units. The results of experimental verification of the technology and the prospects for its further development are presented. Keywords: semantic text analysis, terminology extracting, machine learning, topic modeling, context analysis 10