Труды КНЦ (Технические науки вып.3/2025(16))

Для обучения модели авторы работы применяют датасеты SQuAD [11] и MS MARCO [12] на парах «предложение — вопрос» и предобученные эмбеддинги (GloVe) [13] для улучшения качества генерации. Для ситуации, когда модель сталкивается с неизвестными словами, в работе [9] предлагается применять технологию замены токенов UNK (от “unknown” — неизвестный). Таким образом, если система сталкивается с незнакомым модели словом, происходит его замена на термин из исходного текста с наибольшим весом в механизме внимания. Тем не менее при практическом применении система не всегда в полной мере способна обеспечить качество генерации и семантической корректности вопросов, как показано на рис. 1. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 56-70. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 56-70. Текст: "Inflammation is one of the first responses of the immune system to infection." Человек: "What is one o f the first responses the immune system has to infection?" Нейросеть: "What is one of the first objections of the immune system to infection?" Рис. 1. Пример составления вопроса В данном примере показано, что система в некоторых случаях генерирует «неправильные» слова, то есть слово “responses” на “objections”. Таким образом, рассмотренный подход, несмотря на высокую эффективность, требует больших объемов данных и переобучения модели при изменении предметной области, а также иногда система генерирует семантически некорректные слова, а модель с контекстом абзаца не всегда улучшает результаты. Еще один подход, направленный на применение БЯМ для генерации вопросов, представлен в работе [14]. Авторы работы представляют систему, которая использует дообученные на датасете Turkish-Quiz-Instruct модели GPT-3.5-Turbo и Llama-2 для турецкого языка. Подход ориентирован на генерацию вопросов на основе учебных материалов с предоставлением в качестве ответов набора альтернатив, а также позволяет анализировать краткие ответы на естественном языке. Процесс генерации вопросов включает несколько этапов. На первом этапе происходит сбор и «очистка» учебных материалов, далее выполняется создание промптов для генерации вопросов. После этого происходит использование БЯМ для формирования тестовых вопросов. На последнем этапе система производит оценку качества вопросов с помощью экспертной проверки и метрик ROUGE [15], то есть метрик, которые учитывают, прежде всего, лексическое перекрытие, то есть формальное сходство текстов на уровне слов, а не их смысловую эквивалентность. В работе предлагается два способа оценки качества вопросов: количественно с применением ROUGE-1, ROUGE-2, ROUGE-L; качественно с использованием экспертных оценок по пятибалльной шкале. По метрикам ROUGE, модель БЯМ GPT-3.5-Turbo обеспечивает более высокую точность генерации, а по результатам экспертной оценки лучше оказывается языковая модель Llama-2-13b-chat-hf. Таким образом, к преимуществам рассматриваемого подхода относятся: поддержка нескольких форматов вопросов, уменьшение времени на внедрение и требуемой аппаратной производительности по сравнению с подходами, основанными на обучении нейросети за счет применения БЯМ. Использование метрик ROUGE не всегда способно отразить реальное качество вопросов путем оценки поверхностного сравнения сходства без глубокого семантического анализа. Кратко сформулируем результаты проведенного анализа подходов к генерации тестов с возможностью получения ответов в произвольной форме на естественном языке. Созданные под задачи генерации вопросов нейросетевые модели обеспечивают стабильное качество в пределах своей предметной области, но требуют больших объемов данных и переобучения в случае перехода к другой предметной области. Применение дообученных БЯМ делают систему более адаптивной, однако такие модели зависимы от качества оригинальной модели и «проработки» управляющих промптов. Существенным недостатком второго подхода является отсутствие интеграции систем генерации вопросов с механизмами тестирования и проверки знаний, а также ориентация на метрики типа ROUGE, которые направленны на оценку поверхностного сходства. Также одной их проблем является © Шестаков А. В., Зуенко А. А., 2025 59

RkJQdWJsaXNoZXIy MTUzNzYz