Труды КНЦ (Технические науки вып.3/2025(16))
Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 71-79. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 71-79. в векторы в многомерном пространстве, где семантически близкие элементы располагаются ближе друг к другу. Ранние прообразы таких подходов, например модели GloVe, продемонстрировали, как контекстуальные представления слов могут отражать семантические связи [27]. С появлением архитектуры трансформеров векторизация приобрела контекстуальный характер: значение слова определяется не его статическим представлением, а зависит от всего предложения или документа, что позволяет учитывать полисемию и тончайшие смысловые оттенки. Размерность таких эмбеддингов существенно возросла и достигла в продвинутых системах тысяч измерений (например, до 12288 в некоторых конфигурациях GPT) [28]. Более того, современные LLM способны векторизовать не только текст, но и код, векторную графику (SVG), числовые последовательности и иные типы данных, расширяя свою сферу применения за пределы классической обработки естественного языка. Для повышения достоверности и адаптивности моделей широко применяется архитектура Retrieval- Augmented Generation (RAG), в которой генеративный модуль LLM дополняется внешним хранилищем фрагментов знаний в виде векторной базы данных [29]. Это хранилище содержит эмбеддинги релевантных текстов: исторические данные, нормативные документы, фрагменты графов знаний. При поступлении запроса модель сначала осуществляет поиск релевантных фрагментов, затем интегрирует их в контекст и генерирует ответ с учетом как исходного запроса, так и дополнительной информации. Такой подход снижает необходимость переобучения модели и уменьшает риск «галлюцинаций», повышая достоверность прогнозов. Однако в динамичных предметных областях, таких как анализ социальных реакций, этот метод требует адаптации, поскольку его прямое применение может привести к одновременному добавлению противоречивых и/или утративших актуальность фрагментов данных. Система предиктивного моделирования социальных реакций Crowdsearch Система представляет собой модульный фреймворк, объединяющий обработку больших данных, современные методы представления текста и графов, каузальное агентное моделирование и формализацию нормативных требований. Система ориентирована на поддержку органов регионального и муниципального управления путем предоставления инструментов для проактивного понимания общественных настроений, проведения контрфактического анализа последствий управленческих решений и оптимизации коммуникационных стратегий. Для достижения этих целей архитектура системы должна обеспечить надежное, масштабируемое и объяснимое представление как содержательных, так и структурных аспектов коммуникативного пространства. Это достигается сочетанием контекстуальных текстовых эмбеддингов, графовых эмбеддингов, динамического графа знаний и каузального модуля (рис. 1). Рис. 1. Компоненты системы предиктивного моделирования социальных реакций Crowdsearch © Диковицкий В. В., 2025 74
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz