Труды КНЦ (Технические науки вып.3/2025(16))

Модуль загрузки и обработки документов В модуле загрузки и обработки документов происходит решение задач, связанных с обработкой различных типов данных и форматов их представления, что влияет на качество всего последующего анализа. Модуль реализует следующий функционал. Поддержка форматов. Для реализации эффективной обработки и парсинга документов применяются специальные библиотеки и авторские методы. Система поддерживает работу с наиболее распространенными форматами (PDF, DOCX и XLSX), сохраняя структуру и семантические связи исходного текста при обработке документов. Семантическое фрагментация (чанкирование). При работе с большими объемами частой проблемой являются жесткие ограничения БЯМ по количеству токенов на размер контекста. Стратегия адаптивного семантического чанкирования (деление информации большого объема на небольшие фрагменты) позволяет обойти проблемы, связанные с размером контекста. В отличие от обычного разбиения текста на символы, в процессе фрагментации происходит выделение в тексте логических блоков. В процессе исследований выявлено, что для наиболее эффективного сохранения смысловой целостности информации размер фрагментов должен находиться в диапазоне от 300 до 2000 токенов. Обработка таблиц. Одним из наиболее часто встречающихся видов представления результатов исследований в научных работах являются таблицы. Для работы с такими структурированными данными авторами реализован механизм обработки таблиц. Система идентифицируют структуру таблицы (заголовки, типы данных, связи между ячейками), а затем производит процесс векторизации, учитывая структурно-семантические связи внутри таблицы. Таким образом, система способна проводить точный семантический поиск по данным внутри таблиц. Векторное хранилище и RAG-ядро RAG-технология и векторное хранилище отвечают за семантический поиск и обеспечение приемлемого качества результата. Для хранения данных используется векторная база данных (ВБД) FAISS (Facebook AI Similarity Search) [17]. После обработки данных на предыдущем этапе получившиеся фрагменты преобразуются в числовые векторные представления (эмбеддинги), которые затем индексируются и помещаются в ВБД. Такой подход позволяет осуществлять поиск фрагментов исходного документа, семантически наиболее схожих с запросом пользователя, в том числе в случаях неполного лексического совпадения. RAG-технология является центральным звеном при генерации достоверных ответов. В процессе работы технологии можно выделить несколько ключевых шагов: 1) получение запроса пользователя и преобразование в векторное представление; 2) семантический поиск в ВБД наиболее релевантных фрагментов текста (чанков); 3) объединение найденных фрагментов с пользовательским запросом и подходящим к данному типу запроса промптом, а также подача на вход БЯМ; 4) генерация БЯМ связанного ответа на основе представленного контекста. Так как языковая модель опирается исключительно на заданный источник, а не на свои «внутренние знания», этот подход значительно повышает качество ответа за счет снижения «галлюцинаций» модели. Модуль интеграции с БЯМ (YandexGPT/GigaChat) В рамках предложенной архитектуры для обеспечения возможности быстрого и простого способа переключения между различными языковыми моделями, как локальными, так и облачными, например российскими YandexGPT [18] и GigaChat [19], используется фреймворк LangChain [20]. Такой подход обладает следующими достоинствами. Во-первых, обеспечивается унифицированный интерфейс для взаимодействия с различными языковыми моделями. Во-вторых, за счет применения методов промпт-инжениринга появляется возможность управлять поведением БЯМ, в частности поддерживать стиль ответов, их структуру. Промпт представляет собой специальные четкие инструкции для языковой модели, которые предписывают, как БЯМ должна вести себя при генерации ответов. Наконец, поддерживается возможность хранения истории диалога и учета его при генерации ответов, что дает возможность пользователю задавать уточняющие вопросы, а системе — поддерживать диалог на естественном языке, основываясь на предыдущем взаимодействии. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 56-70. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 56-70. © Шестаков А. В., Зуенко А. А., 2025 61

RkJQdWJsaXNoZXIy MTUzNzYz