Труды КНЦ (Технические науки вып. 7/2023(14))

Характеристика экспериментальных данных В работе использовались ранее собранные данные о публикациях («постах») в нескольких открытых региональных онлайн-сообществах социальной сети «ВКонтакте». В качестве образца данных рассматривался отдельный пост (сообщение), а в качестве его атрибутов — количества лайков, комментариев и репостов за период с января 2021 г. по декабрь 2022 г. В подборку были включены сообщества без специфической тематической привязки, но локализованные по составу подписчиков в небольшом регионе (в нашем случае — Кировско-Апатитском регионе Мурманской области). Таким образом, использовавшийся для экспериментов набор данных (датасет) может быть охарактеризован разнообразием тематики публикаций и относительно стабильным составом аудитории в основном из числа жителей рассматриваемого региона. Для содержательного анализа было произведено его тематическое моделирование, в результате которого выделены наиболее обсуждаемые темы. Размеры полученных тем (количество сообщений, попавшее в соответствующий теме кластер) представлены в виде графика на рис. 1. Всего в состав датасета вошли данные из 20 онлайн-сообществ, имеющие 296 тыс. активных подписчиков, что обеспечивает их репрезентативность в контексте предполагаемого практического использования полученных результатов. Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 35-42. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 35-42. 800 600 2 и I ^ «о 200 0 6 200 400 600 800 Нотетема Рис. 1. Распределение сообщений датасета по темам Специфичной особенностью данных онлайновых социальных сетей является доминирование сообщений небольшой длины (распределение постов по длине представлено на рис. 2). Исходный датасет был подвергнут предварительной очистке, которая включала следующие шаги: • удаление коротких постов, которые не содержат текста или содержат только ссылки или хештеги; • удаление длинных постов, которые содержат более 100 слов, т. к. они являются аномальными для типичной онлайн-коммуникации пользователей, что дает основания предполагать их рекламный характер; • удаление постов, которые содержат ненормативную лексику, оскорбления, спам, т. к. они могут искажать результаты анализа. © Шишаев М. Г., Диковицкий В. В., 2023 37

RkJQdWJsaXNoZXIy MTUzNzYz