Север и рынок. 2023, № 2.
СЕВЕР И РЫНОК: формирование экономического порядка. 2023. № 2. С. 55-73. Sever i rynok: formirovanie ekonomicheskogo poryadka [The North and the Market: Forming the Economic Order], 2023, no. 2, pp. 55-73. РАЗВИТИЕ ПРОМЫШЛЕННЫХ СЕКТОРОВ И РЫНКОВ ПРОДУКЦИИ В РЕГИОНАХ СЕВЕРА И АРКТИКИ обработки данных). На первом этапе была построена гипотеза о возможных компонентах данной типовой ситуации, что позволило составить для поискового запроса перечень лингвистических маркеров, которые разделены на три группы: 1) глагол-предикат, репрезентирующий типовую ситуацию «купля-продажа» (например, «продам», «продаю», «продать», «купить», «продажа» и др.); 2) объект ситуации — продукт, товар (например, «оленина», «олень», «оленья» и др.); 3) маркеры, указывающие на географический регион, в котором предлагается к реализации продукт (например, «мурманская область», «карелия», «ямало ненецкий», «ненецкий», «коми», «якутия», «чукотский» и др.). Результатом выгрузки стали 121 459 сообщений сообществ, содержащих в названии, описании или статусе любое ключевое слово из первой группы и одновременно любое ключевое слово из второй группы, а также любое ключевое слово из третьей группы лингвистических маркеров. Подготовка выборки сообщений и последующая аналитики была выполнена с помощью платформы PolyAnalyst [57]. Она располагает возможностями автоматизированного извлечения информации из неструктурированных текстов (в нашем случае из социальных сетей) и системой инструментов для анализа данных, необходимых для решения поставленных задач, в том числе для визуализации результатов обработки. Используя алгоритмы обработки естественного языка и статистические инструменты, текстовая аналитика позволила решить такие задачи анализа, как подготовка текстов к анализу (в частности, индексация, исправление орфографических ошибок в таблицах данных и пр.), классификация текстов, распознавание именованных сущностей (применительно к нашему исследованию — «географические локации») и извлечение ключевых слов. При проверке орфографии был установлен порог достоверности 70,0 %. В ходе выполнения этих задач значимая информация была извлечена из неструктурированных текстов большого объема, которые были преобразованы в структурированные данные. Структурирование данных позволило резюмировать и визуализировать тенденции в данных, определяющих ассортимент продукции оленеводства, предлагаемой в социальных сетях, и идентифицировать субъекты РФ, находящиеся в арктическом регионе, наиболее активно предлагающие данную продукцию. На втором этапе моделирования ситуации на основе полученной выборки ключевых слов были выявлены лексические реализации объекта (продукта) в виде трех подмножеств: «Мясо оленя и части туши оленя», «Способ переработки оленины с целью получения готового продукта» и «Блюда из оленины». С помощью автоматизированного © Богданова Е. Н., Иванова М. В., Симашко Т. В., 2023 60 статистического анализа на платформе PolyAnalyst было проведено ранжирование данных ключевых слов по трем показателям: значимость (Significance), поддержка (Support) и частотность (Frequency). Значимость — это внутренняя метрика PolyAnalyst, означающая важность слова. Расчет значимости слова производится в контексте анализируемых документов. При этом значимость ключевого слова определяется в его соотношении со сбалансированным корпусом языка, то есть зафиксированного объема письменных и устных текстов различного происхождения и различной тематики. Значимость рассчитывается по шкале от 0 до 100. Данное значение показывает, насколько уникально конкретное ключевое слово для всех текстов в исследуемой колонке и релевантно по отношению к конкретной записи. Поддержка — количество записей, содержащих ключевое слово. Частота — показатель того, сколько раз ключевое слово встречается в данных [57]. В соответствии с задачами работы были внесены уточнения в модели типовой ситуации У. Л. Чейфа [60], Ф. Данеша [61], Н. Д. Арутюновой [62] и проведена экспертная фильтрация стоп-слов с целью устранения ключевых слов, которые не соответствуют или противоречат категориальным признакам компонентов типовой ситуации. В последнем случае использовались логические правила деления, а также приемы составления семантических (лексических) полей и групп Н. Ю. Шведовой [63] и др. Затем была проведена классификация ключевых слов по связанным сущностям и разбиение ключевых слов на три вышеуказанные подмножества с последующим ранжированием по коэффициентам значимости, поддержки и частотности внутри каждого подмножества. Результатом фильтрации стала выборка из 209 ключевых слов, представляющих ассортиментный ряд продукции оленеводства и соответствующих исследуемой типовой ситуации. Следующим этапом стала визуализация результатов анализа с помощью программных решений платформы PolyAnalyst в виде графов и их последующая интерпретация. При анализе значимости элемента графа принимается во внимание размер узла и его разветвленность. Размер узлов определяется на основании показателя поддержки: чем выше значение, тем крупнее узел на графе. Результаты и обсуждение В статистических изданиях и аналитических обзорах [64; 65] представлены данные об объемах оптовой реализации продукции оленеводства в Российской Федерации. В то же время рынок оленины в аспекте прямых продаж, осуществляемых представителями
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz