Труды КНЦ (Технические науки) 2/2022(13).

Отдельное внимание было уделено автоматической оценке качества тем [37], получаемых с помощью различных методов тематического моделирования. Такой оценкой качества была выбрана метрика когерентности UMass, поскольку исследователи отмечали ее наибольшую корреляцию с человеческими оценками семантической интерпретируемости тем [38, 39]. В роли дополнительного критерия качества использовалась сумма вероятностей десяти верхних токенов темы (так называемая чистота темы) [40]. Однако в предыдущих экспериментах значения метрики когерентности UMass тематических моделей ARTM получились не выше, чем у других методов. Метод LDA существенно превзошел ARTM и другие методы по значению когерентности UMass. Результаты объясняются использованием ARTM без регуляризаторов, поскольку в таком режиме подход ARTM является обычным PLSA [41]. В рамках развития работ по тематическому моделированию сообществ социальных сетей [42] авторы провели эксперименты с настройкой базовых регуляризаторов, доступных в библиотеке BigARTM, и гиперпараметрами метода LDA. В качестве опорного (бейзлайн) для сравнения использовался метод LDA, поскольку он показал лучшие результаты в предыдущих экспериментах [36], а также метод ARTM без регуляризации, то есть фактически PLSA. На основании результатов экспериментов продемонстрировано, что подход ARTM с регуляризацией сопоставим с другими методами тематического моделирования по значениям метрики когерентности UMass и сумме вероятностей десяти верхних токенов темы. Это окончательно подтвердило применимость библиотеки BigARTM в будущих исследованиях для тематического моделирования сообществ социальных сетей. Однако было обнаружено, что метрика когерентности UMass не всегда подходит для автоматизированной оценки качества тематических моделей, полученных с помощью метода ARTM при использовании регуляризаторов. Поэтому было предложено несколько дополнительных метрик, которые могут быть полезными при оценивании качества тематической модели. На основе проведенных авторами исследований, связанных с тематическим моделированием, был сделан вывод о невозможности на данный момент однозначной идентификации лучшего метода моделирования для коротких текстов социальных медиа. Поэтому ещё в процессе исследования качества тематических моделей применительно к специфическим текстам социальных медиа был расширен перечень возможных к применению методов построения тематических моделей за счет интеграции программных реализаций этих методов в разрабатываемый авторами фреймворк. В текущей версии фреймворка программно интегрированы различные модификации следующих методов тематического моделирования: LDA [43], PLSA [41], GSDMM [44], подход ARTM [40]. Тональность сообщений и «Антибот ». Модули, относящиеся к определению тональности сообщений и «Антибот» [45] находятся на стадии разработки: протестировано несколько существующих решений-библиотек, ведутся работы по повышению качества результатов. Оценка тональности позволяет дополнить статистические данные и тематические характеристики сообщений вероятностным значением, определяющим их эмоциональную окраску в виде меток: «негатив», «позитив», «нейтраль». В свою очередь, принципиальное назначение функции «Антибот» состоит в отнесении обрабатываемых текстов сообщений с некоторой вероятностью к тем, которые написаны реальными людьми, и тем, авторство которых принадлежит техническим аккаунтам. Применение данных функций позволяет проводить более качественный анализ. Следует отметить большой потенциал развития аналитического блока за счет применения в нём в будущем технологий формирующего ИИ. Блок отчетных оповещений Программные модули, входящие в состав блока, позволяют формировать регулярный статистический отчет по данным мониторинга. Доступны стандартные форматы .csv и .xlsx. Предусмотрены настройки оповещений, реализованных на базе электронной почты, а также прорабатывается возможность оповещения с помощью мессенджера «Телеграм». Пользовательский интерфейс для гибкой настройки формы представления отчета находится на стадии проектирования. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 5-22. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 5-22. © Федоров А. М., Датьев И. О., Шишаев М. Г., Федотов С. С., Вишняков И. Г., 2022 14

RkJQdWJsaXNoZXIy MTUzNzYz