Труды КНЦ (Технические науки вып.3/2025(16))

For citation: Shestakov A. V., Zuenko A. A. Аpplication of RAG technology for automated test generation and knowledge assessment with natural language dialogue support. Trudy Kol'skogo nauchnogo centra RAN. Seriya: Tekhnicheskie nauki [Transactions of the to la Science Centre of RAS. Series: Engineering Sciences], 2025, Vol. 16, No. 3, pp. 56-70. doi:10.37614/2949-1215.2025.16.3.004. Введение Научные сотрудники постоянно имеют дело с поиском и анализом информационных источников. Однако, несмотря на доступность информации, ее объемы быстро растут. Ежедневно выпускается огромное количество публикуемых работ: научных статей, монографий, патентов и технических отчетов. Традиционные методы поиска, такие как поиск по содержимому (полнотекстовый поиск) и по ключевым словам, демонстрируют ограниченность, так как они не учитывают контекст и семантику данных, вследствие чего не способны в значительной мере ускорить и упростить поиск информации. Таким образом, возрастает потребность в контекстно-ориентированных интеллектуальных системах поиска и анализа информации, которые способны понимать семантику информации при интеллектуальном анализе. Отличительной чертой научных работ является специфика научной информации. При разработке интеллектуальных систем поддержки исследовательской деятельности особое внимание уделяется принципиальной разнородности форм представления информации в научных работах, которая может иметь форму текста или быть сгруппированной в таблицы, описываться математическими формулами, схемами, графиками, изображениями. Кроме этого, научная информация может храниться в разных форматах, таких как PDF, DOCX, XLSX. В процессе разработки интеллектуальной системы поддержки исследовательской деятельности для каждого из форматов необходимо применять свои специальные алгоритмы обработки, чтобы сохранить структуру и смысловые связи текста. При написании научных текстов обычно соблюдаются определенные традиции изложения результатов исследований, тексты характеризуются наличием определенной структуры и стилем изложения материала. Помимо изложенного выше, значение терминов может различаться в зависимости от предметной области, что осложняет разработку интеллектуальных поисковых систем. К таким интеллектуальным системам поддержки исследовательской деятельности предъявляются строгие требования: 1. Система должна обеспечивать высокую степень релевантности получаемого ответа, учитывая контекст: конкретную предметную область, историю диалога с пользователем и его профиль в системе (студент, аспирант, ведущий научный сотрудник и т. п.). 2. Генерируемые системой ответы должны содержательно соответствовать исходным источникам, а также принятым нормам изложения на русском языке, что подразумевает использование устоявшейся терминологии, точность формулировок и соблюдение логики научного стиля. 3. Так как исследовательская деятельность не ограничивается поиском информации, система должна предоставлять широкий спектр дополнительных возможностей. К ним относится проверка усвоения информации. Для этого предлагается применять адаптивное тестирование пользователей, которое позволяет автоматически составлять тесты на основе загруженных материалов для проверки понимания материала и выявления пробелов в знаниях. Это может быть полезно при решении таких задач, как построение индивидуальной траектории обучения, формирование команды под проект. 4. Система должна обеспечивать поддержку диалога на естественном языке как при формулировке запросов (вопросов), так и при анализе ответов пользователя. Анализ существующих платформ показывает, что имеющиеся интеллектуальные системы поиска не удовлетворяют всем имеющимся требованиям, особенно в части автоматической генерации тестов для проверки знаний. В качестве подхода к решению задач интеллектуального поиска и автоматизации проверки знаний можно применять подход на основе больших языковых моделей (БЯМ) [1]. Такие модели способны осуществлять поиск и генерировать ответы на естественном языке, а также могут служить основой для генерации вопросов и проведения диалога. Однако существенным недостатком БЯМ является генерация недостоверных сведений — «галлюцинаций» (т. е. неточных или вводящих в заблуждение Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 56-70. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 56-70. © Шестаков А. В., Зуенко А. А., 2025 57

RkJQdWJsaXNoZXIy MTUzNzYz