Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

получаемое на данном этапе, соответствует базовому набору понятий, априори значимых в рамках рассматриваемой предметной области. На втором этапе осуществляется пополнение состава значимых понятий с помощью анализа контекста. Используемый при этом подход основан на простом предположении, что если некоторое априори значимое понятие w1 используется в некотором контексте c(w1) и имеется понятие w2, используемое в схожем контексте, т.е. c(w2) ~ c(w1), то понятие w2 также значимо в рамках рассматриваемой предметной области. В качестве «стартовых» понятий используются элементы множества ключевых тем (topics), выявленные на первом этапе. За счет такого подхода потенциально удастся решить ряд проблем: - Избежать замусоривания онтологии малозначимыми или общеупотребимыми понятиями - Обеспечить включение в понятийную базу редко-используемых, синонимичных терминов произвольной длины, в том числе - жаргонизмов и слов общеупотребимой лексики, используемых в контексте некоторой предметной области как понятие. - Обеспечить возможность анализа в том числе коротких текстов произвольной тематики. 1. Технология выделения базовых значимых понятий на основе Topic modeling В данной работе тематическое моделирование используется в постановке задачи, отличной от классической, поскольку целью является не идентификация тематики документов или их классификация в соответствии с заданным набором тем, а выявление значимых понятий, которыми оперирует автор документа. Список значимых понятий формируется в результате анализа текстов дистрибутивными и синтаксическими методами анализа в два этапа. На первом определяются частотные и синтаксические характеристики слов, выявление словосочетаний в рассматриваемой коллекции. На данном этапе отсекаются общеупотребительные слова. Для этого используются частотные характеристики слов - TF-IDF мера, а также синтаксический анализ для определения части речи. Для определения понятий, выраженных биграммами, используется отфильтрованная разреженная матрица n х m (n = количество документов коллекции, m = количество уникальных слов и пар слов в корпусе), полученная на коллекции. Дистрибутивные методы позволяют удалить семантически незагруженные слова и идентифицировать устойчивые словосочетания. На втором этапе учитывается статистика совместного использования значимых понятий. Для этого формируется векторная модель Word2Vec предварительно очищенного корпуса тематических текстов: вследствие малого размера корпуса (относительно размера корпусов, используемых для обучения векторных представлений текстов общей лексики) из него удаляются слова, частотно определенные как незначимые, а также объединяются в одно понятие устойчивые словосочетания. Модель Word2Vec используется для оценки контекстной близости слов, чтобы определить фраземы, коннотации и контекст использования понятий. Для определения значимых понятий применяется кластеризация пространства Word2Vec алгоритмом k-средних. В качестве индикатора контекстной близости используется косинусная близость между 14

RkJQdWJsaXNoZXIy MTUzNzYz