Труды КНЦ (Технические науки вып.3/2025(16))

Во время анализа результатов (сравнения ответов пользователя с эталонными формулировками) система производит подсчет общего количества верных/неверных ответов, их процентного соотношения, а также группирует ошибки по тематическим разделам. Затем на основе анализа частоты ошибок формируются рекомендации путем составления перечня тем для повторного изучения, а также составляются рекомендации в привязке к конкретным разделам учебного материала. Пример отчета представлен на рис. 6. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 56-70. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 56-70. ИТОГОВЫЙ БАЛЛ: 7 из 8 (87.5%) АНАЛИЗОШИБОК: 3. Компоненты RAG-архитектуры - Ваш ответ: "векторная база и языковая модель" - Правильный ответ: "векторная база, энкодер и языковая модель" РЕКОМЕНДАЦИИ: Для улучшения результатов рекомендуется повторить: - RAG-архитектура (ошибки в вопросах: 3) - Принципы работы энкодеров (ошибки в вопросах: 3) Рис. 6. Пример итогового отчета по прохождению теста Эксперименты и обсуждение результатов В ходе работы была реализована интеллектуальная система поддержки исследовательской деятельности. Для оценки эффективности разработанной системы был проведен ряд экспериментов, направленных на проверку функционала по автоматической генерации тестов и адаптивному тестированию. Оценка модуля автоматической генерации тестов и адаптивного тестирования Для проверки качества системы по автоматической генерации тестовых вопросов и адаптивному тестированию были проведены тесты на основе учебных материалов по тематике «Задачи удовлетворения ограничений» (CSP) [21]. Качество работы системы оценивалось по следующим аспектам: 1) качество генерации: релевантность, грамматическая корректность и фактическая точность сгенерированных вопросов; 2) корректность работы адаптивного алгоритма: способность системы динамически менять последовательность вопросов на основе проверки ответов. Для оценки модуля был сгенерирован список вопросов, часть которого представлена в таблице. На рисунке 7 представлен пример, при котором ответ пользователя система засчитывает как полностью верный. В этом случае происходит переход к другой теме вопросов. На рисунке 8 продемонстрирован случай, когда пользователь дал частично правильный ответ. Ответ содержит назначение эвристики, но не содержит описание преимуществ от ее применения, заключающееся в минимизации количества исключаемых вариантов для соседних переменных. Система предлагает еще вопрос из той же темы. Если пользователь дал на него правильный ответ, то происходит переход к другой теме тестирования. Если пользователь дает кардинально неверный ответ, то система подбирает вопрос из той же темы, но более низкой сложности. Далее, если ответ на вопрос правильный, то происходит переход к следующей теме с ранее установленной сложностью. Такой случай показан на рис. 9. Демонстрация генерации отчета показана на рис. 10. На нем рассмотрен результат прохождения теста по теме «Задачи удовлетворения ограничений», состоящего из 8 вопросов. В процессе исследований выявлено, что, что модули генерации и подбора вопросов демонстрируют высокую эффективность при проведении тестирования системы. Система корректно анализирует ответы и изменяет последовательность вопросов в соответствии с заданной логикой адаптации. Тем не менее в ряде случаев (7-9 %) у системы наблюдаются ошибки при семантической оценке ответов пользователя и арифметические ошибки при подсчете итогового балла за тест, что говорит о необходимости модернизации механизма подсчета баллов. © Шестаков А. В., Зуенко А. А., 2025 66

RkJQdWJsaXNoZXIy MTUzNzYz