Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

максимально возможной тематической сфокусированности на рассматриваемой предметной области) предметными текстами больших объемов. Кроме того, возникает проблема дифференциации общеупотребимых и предметных (специальных) понятий. Данная проблема также находится в фокусе внимания современных исследователей и разработчиков. Например, в работе [13] предлагается техника предсказания уровня предметности (technicality) терминов, извлекаемых из текстов, основанная на формировании и сравнении векторных представлений лексических единиц в тематическом (предметном) пространстве и в пространстве общеупотребимой лексики. В данной работе предлагается технология идентификации в тексте понятий, значимых в контексте некоторой предметной области, основанная на моделях машинного обучения (конкретно - на искусственных нейронных сетях). Технология предполагает двухэтапный процесс выделения значимых понятий, описанный в следующем разделе. Реализуемый в рамках технологии подход к решению поставленной задачи позволяет фокусироваться только на значимых понятиях предметной области и использовать при этом, в том числе, короткие предметные тексты произвольной тематики. 1 ---------------------------------------------------------------------- Набор предметных текстов V (1) Topic modelling fT Произвольные \ --------------------------- ------------------------------ 1 Базовые понятия 1 тексты Ч> Ч/ (2) Анализ контекста Значимые понятия предметной области Рис. 1. Общая схема технологии выделения понятий На первом этапе осуществляется формирование базового набора значимых понятий предметной области. При этом главная задача - обеспечить максимально возможную точность идентификации значимых понятий, полнота и размер итогового набора - второстепенны. Для этих целей формируется набор текстов, соответствующих тематике предметной области, который подвергается анализу с помощью специализированного метода моделирования тематики (Topic modeling), основанного на кластеризации и анализе статистических свойств и дистрибутивной семантики текста. Результирующее множество ключевых тем, 13

RkJQdWJsaXNoZXIy MTUzNzYz