Труды КНЦ (Технические науки вып. 3/2024(15))
Труды Кольского научного центра РАН. Серия: Технические науки. 2024. Т. 15, № 3. С. 50-60. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2024. Vol. 15, No. 3. P. 50-60. d 4 j = T ! S r P = i ^ - B r r j - 1 M к Brt Фі + ■ Фі lJ \тах(фі) max(cpj)у (1) где ѲВ гр — значение принадлежности структуры В г р теме к ; Вг? — значение совместного употребления терминов і и j в рамках В г , получаемое функцией подсчета совместного употребления терминов в структуре коммуникации f p ( B r T) ^ В г р — вида <i,j,C(j>, где i ,j — термины, — значение совместного употребления данных терминов в конкретной структуре Br; <pf — значение принадлежности термина і теме к; тах(фі) — максимальное значение принадлежности термина і теме. В результате получается набор матриц со значениями совместной встречаемости соответствующих терминов. Набор уникальных терминов интерпретируется как вершины графа, а ненулевые значения матриц совместной встречаемости — как взвешенные ассоциативные отношения между ними. Рис. 1. Технология формирования многослойного ГЗ на основе тематического моделирования Оценка эффективности применения тематического моделирования для формирования ГЗ Для проверки предлагаемой технологии формирования многослойного ГЗ был использован датасет публикаций с комментариями социальной сети «ВКонтакте» из 8 групп за приблизительно 2 года. Исходный датасет содержал 52 375 публикации и 235 365 комментариев, из которых содержат текст 50 067 и 221 834 соответственно. Очистка текста в датасете от нежелательных символов таких, как эмодзи, повторения различных знаков и конструкций, например, телефонных номеров, ссылок или идентификаторов пользователей, проводилась в два этапа. На первом этапе для очистки от нежелательных конструкций использовался набор регулярных выражений. На втором — белый список символов, состоящий из кириллицы, латиницы, цифр и ряда специальных символов. Для дальнейшей обработки датасет был преобразован в набор структур коммуникации, где каждая структура является представлением публикации и ее откликов (комментариев). Вместе с этим преобразованием проводилось выделение терминов в этих структурах с помощью авторского комбинированного метода извлечения терминов [10]. В результате работы метода в документах были выделены термины, входящие в заранее заданный словарь, именованные сущности, осмысленные биграммы и триграммы, а также контекстно важные униграммы-существительные. Полученные структуры дополнительно были очищены от редко встречающихся терминов. В результате был получен набор из 45 363 структур, содержащих хотя бы два уникальных термина, а также список уникальных терминов датасета. Для обучения тематической модели и дальнейшего ее использования при построении матриц совместного употребления был выполнен препроцессинг терминов: приведение в нижний регистр, стеммминг (для приведения в единую словоформу), замена пробелов на нижние подчеркивания (в многословных терминах). На основе полученных документов с извлеченными терминами был обучен набор из 11 тематических моделей (ТМ) (количество тем варьировалось от 5 до 15) на основе латентного размещения Дирихле (Latent Dirichlet allocation, LDA), реализованной в библиотеке Gensim [11]. При обучении всех моделей использовались следующие параметры: update_every = 1, chunksize = 1000, passes = 6. Для полученных моделей была вычислена метрика согласованности (coherence), которая показывает, насколько выявленные темы значимы и интерпретируемы. Результаты подсчета метрики приведены на рис. 2. Таким образом, в дальнейшей работе было принято решение использовать модель с 7 темами, т. к. она имеет наибольший показатель согласованности тем. © Пимешков В. К., Никонорова М. Л., Шишаев М. Г., Вишняков И. Г., 2024 54
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz