Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

векторами слов. Похожий подход реализован в библиотеке Top2Vec [15], где одним из критериев идентификации темы является равноудаленность от других тем. В результате, в кластер попадают схожие по смыслу (в контексте рассматриваемой коллекции текстов) термины. В предположении что кластер задает некоторый класс понятий, центр кластера будет соответствовать предполагаемому значимому термину, наиболее точно обозначающему класс. Тогда, сравнивая контексты полученного «эталонного» понятия и понятий- кандидатов (на 2 этапе) мы сможем отыскать в тексте другие экземпляры данного класса, также являющиеся значимыми понятиями предметной области. Способ формирования словаря Word2Vec Для формирования словаря Word2Vec исходный набор текстов подвергся лемматизации, удалению стоп слов, морфологической фильтрации (оставлены только существительные и связанные с ним качественные прилагательные). Устойчивые словосочетания сохранены как одно слово. Далее на полученном наборе произведено построение модели Word2Vec. размер словаря модели составил 13597 слов, применен алгоритм CBOW, размерность пространства 200. На рисунке 2 представлено двухмерное представление модели Word2Vec, полученное с помощью алгоритма t-SNE. T-SNE использовался для построения подмножества похожих слов из обученной модели Word2Vec. Во-первых, были найдены схожие слова и каждое из похожих слов было добавлено к матрице. Во- вторых, t-SNE был применен к матрице для проецирования каждого слова в двумерное пространство (т.е. уменьшения размерности). На первом (р и с ^ ) изображении представлен фрагмент модели Word2Vec (кластера слов «исследования», «этнография», «добыча») построенный без частотного и морфологического фильтра. На втором ( рис .2Ь) - после применения описанных преобразований набора (кластера слов «закон», «этнография», «Арктика», «освоение», «безопасность», «наука»). (a) (b) Рис.2. Двумерная визуализация пространства Word2Vec до (а) и после (b) преобразований Затем к полученной модели применялась кластеризация с использованием алгоритма k-средних. Было получено 100 кластеров, состоящих из смежных тем. В качестве критерия использовалось косинусное расстояние, в 5 проходов с наличием пустого кластера. Словарь для составления списка значимых тем был 15

RkJQdWJsaXNoZXIy MTUzNzYz