Труды КНЦ (Технические науки вып.3/2025(16))

Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 80-105. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 80-105. Научная статья УДК 004.853 doi:10.37614/2949-1215.2025.16.3.006 ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ Роман Александрович Горбунов1, Александр Владимирович Вицентийш 1 2Институт информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук, Апатиты, Россия 2Филиал Мурманского арктического университета в г. Апатиты, Апатиты, Россия 1gorbunov-roma@inbox.ru, https://orcid.org/0009-0004-4627-504X 2alx_2003@mail.ruB, https://orcid.org/0000-0003-1331-4749 Аннотация Данная работа посвящена исследованию возможностей больших языковых моделей (LLM) для решения задач извлечения структурированных данных в формате RDF-троек из неструктурированных разнородных текстов на естественном языке. Рассматривается проблема эффективности извлечения данных, которая актуальна для автоматического построения семантических сетей, служащих основой для представления геопространственных знаний. Представлена сравнительная оценка различных типов промптинга, являющихся ключевым инструментом взаимодействия с LLM. Ключевые слова: большая языковая модель (LLM), граф знаний, DeepSeek, RDF-тройки, промптинг, извлечение структурированных данных, семантическая сеть Благодарности: исследование выполнено в рамках государственного задания Института информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук от Министерства науки и высшего образования Российской Федерации, тема научно-исследовательской работы «Методы и технологии создания интеллектуальных информационных систем для поддержки развития сложных динамических систем с региональной спецификой в условиях неопределенности и риска» (регистрационный номер 1023032300374-0-2.2.1). Для цитирования: Горбунов Р. А., Вицентий А. В. Исследование возможностей больших языковых моделей для извлечения данных из текстов на естественном языке // Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 80-105. doi:10.37614/2949-1215.2025.16.3.006. Original article RESEARCH OF THE CAPABILITIES OF LARGE LANGUAGE MODELS FOR EXTRACTING DATA FROM NATURAL LANGUAGE TEXTS Roman A. Gorbunov1, Alexander V. Vicentiy2B 1 2Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia 2Apatity branch of Murmansk Arctic State University, Apatity, Russia 1gorbunov-roma@inbox.ru, https://orcid.org/0009-0004-4627-504X 2alx_2003@mail.ruB, https://orcid.org/0000-0003-1331-4749 Abstract This paper is devoted to the study of the capabilities of large language models (LLM) for solving the problems of extracting structured data in the RDF-triples format from unstructured heterogeneous texts in natural language. The problem of data extraction efficiency is considered, which is relevant for the automatic construction of semantic networks that serve as the basis for the representation of geospatial knowledge. A comparative assessment of various types of prompting, which are a key tool for interacting with LLM, is presented. Keywords: large language model (LLM), knowledge graph, DeepSeek, RDF-triples, prompting, structured data extraction, semantic network © Горбунов Р. А., Вицентий А. В., 2025 80

RkJQdWJsaXNoZXIy MTUzNzYz