Труды КНЦ (Технические науки) 2/2022(13).
Системная инфраструктура Представленная разработка реализована на сервере, имеющем следующие технические характеристики: • процессор Intel Xeon E5-2620 v4 2.1GHz (TB up to 3.0GHz) 20Mb 4 x DDR4-1600/18666, 2 ед.; • память серверная DIMM DDR4 16384Mb PC21300 2666MHz S, 6 ед.; • платформа Supermicro SYS-6028R-WTR (LGA2011, 8 x 3.5" SAS/SATA HDD, 16 x DDR4, 740W, 2U; • матплата X10DRW-i; • накопители SATA III WDC WD5000AAKX-00ERMA0 (WD Cavair Blue) 500 GB, WD Gold 7200rpm, 2Tb, 2 ед.; • сетевое хранилище Asustor. Фактически для работы используются ресурсы, предоставляемые виртуальной машиной, работающей под управлением операционной системы (ОС) Debian GNU/Linux 10 (buster), с оперативной памятью 10 ГБ и дисковым пространством 200 ГБ. Дополнительно для хранения данных в базе MongoDB используется диск 400 ГБ. Инфраструктура разработчиков и пользователей Рабочие места разработчиков и пользователей описываемой системы представляют собой типовые персональные компьютеры (ПК), к техническим характеристикам которых не предъявляется особых требований. Обычно используются ПК под управлением ОС Microsoft Windows поддерживаемых компанией Microsoft версий. Для непосредственной работы требуется наличие браузера и приложения-клиента ssh (например, PuTTY). Подключение к базе данных MongoDB осуществляется любым NoSQL-клиентом (например, Robo 3T). При необходимости разработчики могут использовать локальные среды разработки, такие как Microsoft Visual Studio Code (MS VSCode) или PyCharm. Однако основным средством разработки являлась выполняемая в виде сервиса на стороне сервера среда JupyterLab, работа с которой осуществляется через браузер и для безопасности работы которой необходимо использовать SSH-туннелирование. Для безопасного хранения результатов программных разработок и соблюдения соответствующих прав Института информатики и математического моделирования (ИИММ) на получаемые результаты интеллектуальной собственности используется локальный сервер GitLab. Блок извлечения данных В текущей версии фреймворка реализованы программные механизмы извлечения открытых данных из социальной сети «ВКонтакте» [31] и мессенджера «Телеграм». Для этого используются библиотеки на языке программирования python 3.x, которые предоставляют доступ к API [32] этих ресурсов. Технической особенностью работы по извлечению данных являются введенные разработчиками социальной сети и мессенджера ограничения на количество запросов в единицу времени и их суммарное количество в течении суток. В условиях работы с большими данными эти ограничения оказывают свое влияние на скорость и объемы извлекаемых данных. Однако этот процесс организован без какого бы то ни было нарушения лицензионных требований и пользовательских соглашений рассматриваемых ресурсов. Помимо работы с API проводятся тестовые эксперименты по добавлению в инструментарий фреймворка механизмов парсинга исходного HTML-кода страниц веб сайтов исследуемых ресурсов. Внедрение таких подходов позволит снять большинство технических ограничений на скорость и объемы извлекаемых из открытых источников больших данных. Блок мониторинга Реализация блока функций для мониторинга [33] стала логичным развитием функциональных возможностей блока извлечения данных из открытых источников. Здесь главной особенностью является обеспечение регулярной, бесперебойной автоматической работы алгоритмов извлечения данных в течение продолжительного времени. Запуск программ-скриптов по расписанию организован средствами стандартной для ОС UNIX системной службы cron. В целом такой режим работы увеличил интенсивность запросов к открытым ресурсам социальной сети «ВКонтакте». Для корректной работы Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 5-22. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 5-22. © Федоров А. М., Датьев И. О., Шишаев М. Г., Федотов С. С., Вишняков И. Г., 2022 12
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz