Труды КНЦ (Технические науки) 2/2022(13).
с имеющимися ограничениями данной платформы была разработана подсистема управления техническими аккаунтами. В результате гибкой масштабируемой конфигурации эта подсистема позволяет одновременно и вести мониторинг, и проводить другие отдельные эксперименты по обращению к открытым ресурсам «Вконтакте» без нарушения правил работы с данной платформой. Также для обеспечения работы мониторинга в непрерывном режиме необходим большой объем хранилища для записи поступающих данных. В качестве хранилища используется NoSQL (база данных MongoDB) и дисковое пространство сервера ИИММ. Объем данных постоянно растет, но применяемые технологии и средства позволяют масштабировать объем используемого хранилища. Блоки выборки и предварительной обработки данных Особенностью собранных в процессе мониторинга данных являются их избыточность и дублирование. Это связано с тем, что среди очередной порции извлекаемых данных лишь только часть успевает измениться за прошедший интервал времени. С целью получения из собранного массива данных необходимой информации в рассматриваемом фреймворке предусмотрен соответствующий функциональный блок. Выборка данных производится с помощью специфического языка запросов к базе данных MongoDB, который отличается от традиционного SQL в силу особенностей хранения элементов не в виде записей, а в виде отдельных документов в формате json. С учетом характеристик данных мониторинга, самой востребованной операцией является агрегация. С помощью неё большие объемы дублирующихся данных перерабатываются в коллекции данных и форматированные наборы (датасеты), пригодные для дальнейшей обработки. После уплотнения данные готовятся для дальнейшей статистической и аналитической обработки и визуализации. Для этого производится их очистка от стоп-слов и других мусорных элементов, документы преобразуются в массивы лексем (токенов), которые нормализуются с помощью процедур лемматизации или стеммирования. Блок статистических функций Имеющиеся во фреймворке функции обработки данных представлены в виде двух блоков. Программные инструменты первого блока позволяют проводить первичную статистическую обработку [34] сформированных на предыдущих этапах датасетов. С помощью оценки полученных характеристик исследуемого набора данных и его специфических особенностей можно получить начальное представление об исследуемых объектах и процессах. Например, в данных, представленных в виде числовых рядов, можно идентифицировать и локализовать нетипичные резкие изменения (всплески), а для текстовых данных можно сформировать их векторные представления в виде меры TF-IDF. Для всего набора данных обычно формируется гистограмма распределения. Блок аналитических функций Функции данного блока предназначены для выявления закономерностей, более сложных, чем подсчет общеизвестных статистических характеристик. Наиболее проработанными программными модулями являются модули, относящиеся к тематическому моделированию. Тематическое моделирование. Одним из ключевых преимуществ оперативного и стратегического управления регионом является получение тематической повестки сообществ социальных медиа, которая в информационном пространстве является важным компонентом общества. Для автоматизированного анализа текстов постов и комментариев используются методы тематического моделирования [35]. Недавние исследования авторов данной работы преимущественно были сосредоточены на тематическом моделировании и улучшении качества получаемых тематических моделей. Так, в работе [36] было использовано несколько методов вероятностного тематического моделирования на подготовленном датасете, состоящем из постов сообществ онлайновой социальной сети «ВКонтакте». На основе результатов экспериментов показано, что подход ARTM является одним из самых быстрых по времени обучения модели. В качестве другого преимущества BigARTM отмечена мультимодальность, потенциально значимая для моделирования сообществ социальных медиа, поскольку в них присутствует сопутствующая информация, причем не всегда являющаяся обычным текстом. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 5-22. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 5-22. © Федоров А. М., Датьев И. О., Шишаев М. Г., Федотов С. С., Вишняков И. Г., 2022 13
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz