Труды КНЦ (Технические науки вып.3/2025(16))
для решения подобных задач применяется широкий спектр методов, эволюция которых демонстрирует переход от жестких правил к нейросетевому обучению. К таким методам можно отнести, например, методы на основе словарей и правил, которые, несмотря на высокую точность, требуют большого объема ручного труда экспертов и плохо масштабируются; статистические методы, где используются размеченные корпуса текстов для автоматического сбора данных, но которые часто создают проблемы с точностью из-за зашумленности данных; нейросетевые модели, в том числе предобученные, которые стали современным стандартом, демонстрируют впечатляющие результаты по извлечению данных за счет способности учитывать контекст. Такой современный подход часто используется для решения задач извлечения сущностей и отношений [8; 9], поэтому он может отлично подойти для решения задачи извлечения множества RDF-троек из текстов на естественном языке, представленной в данном исследовании. Высокоперспективным направлением в решении задач извлечения данных из текстов на естественном языке является применение больших языковых моделей (Large Language Model, LLM). Они представляют собой предобученные на значительных объемах информации нейросетевые инструменты для обработки запросов с возможностью выявления зависимостей между словами в последовательности. Предварительное обучение позволяет им не только генерировать связанный текст, но и решать описанные ранее сложные семантические задачи. Эволюция LLM — от ранних концептов до современных высокоразвитых систем — привела к появлению множества мощных моделей, доступных через API (Application Programming Interface, API) или чат-интерфейсы. Среди популярных примеров можно выделить ChatGPT (OpenAI) [10], Claude (Anthropic) [11], Gemini (Google) [12]. Активно развиваются и отечественные разработки, включая GigaChat (Сбер) [13] и YandexGPT (Яндекс) [14]. В подобных моделях ключевым элементом взаимодействия является промпт (англ. prompt — подсказка), а под промптингом (promting) понимается методология составления текстовых инструкций (промптов), направляющих модель при решении конкретных задач. Поскольку LLM по своей сути являются универсальными предсказателями слов в последовательности, то именно промпт фокусирует их вычислительные возможности на требуемой операции, такой как извлечение RDF-троек. При этом эффективность извлечения данных напрямую зависит от выбранной стратегии промптинга, которая помогает экспертам ответить на вопрос «Какой способ подачи информации модели является наиболее эффективным для решения поставленной задачи?», и типа промптинга для ответа на вопрос «В какой форме представить модели инструкцию для эффективного решения поставленной задачи?». Таким образом, стратегия определяет методику подачи информации, а тип — структуру инструкции. В работе рассматривается проблема оценки влияния выбора стратегии промптинга на эффективность извлечения структурированных данных из текстов на естественном языке с помощью применения больших языковых моделей. При этом ключевой гипотезой исследования является предположение о значительном влиянии выбранных стратегий и типов промптинга на эффективность извлечения структурированных данных из нехудожественных разнородных текстов. В настоящее время LLM демонстрируют революционные возможности для решения задач обработки данных, выступая мощным инструментом для их извлечения. Их применение для обработки разнородных текстовых данных является не только практическим инструментом, но и объектом исследования, поскольку эффективность работы LLM сильно зависит от методики взаимодействия пользователя с конкретной реализацией такой модели при использовании структурированных промптов. Существует множество различных классификаций и подходов к конструированию промптов, предложенных различными научными группами [15-17], однако, несмотря на это, нет единого подхода к стандартизации типов промптов, а также общей точки зрения на их эффективность в задачах извлечения данных из текстов на естественном языке. В научной сфере представлены различные примеры того, где LLM используются для извлечения данных, включая извлечение данных для получения информации о вредителях в сельском хозяйстве [18], извлечение структурированных табличных данных из текстовых медицинских отчетов [19], а также извлечение структурированных данных для проведения химических исследований [20]. Существующие решения на основе LLM показывают, что, несмотря на их высокий потенциал, результаты извлечения данных могут значительно варьироваться в зависимости Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 80-105. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 80-105. © Горбунов Р. А., Вицентий А. В., 2025 82
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz