Труды КНЦ (Технические науки вып.3/2025(16))
Acknowledgments: The study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic “Methods and technologies for creating intelligent information systems to support the development of complex dynamic systems with regional specifics in conditions of uncertainty and risk” (registration number of the research topic 1023032300374-0-2.2.1). For citation: Gorbunov R. A., Vicentiy A. V. Research of the capabilities of large language models for extracting data from natural language texts. Trudy Kol'skogo nauchnogo centra RAN. Seriya: Tekhnicheskie nauki [Transactions of the to la Science Centre of RAS. Series: Engineering Sciences], 2025, Vol. 16, No. 3, pp. 80-105. doi:10.37614/2949-1215.2025.16.3.006. Введение Извлечение данных из неструктурированных текстов на естественном языке является одной из ключевых задач в области их обработки и одним из важных этапов для решения прикладных проблем, связанных с управлением информацией [1]. В контексте разработки технологии синтеза адаптивных геосемантических изображений на основе геопространственных знаний эта задача приобретает особую значимость [2]. Извлечение сущностей и отношений между ними актуально для автоматического построения и обогащения онтологий — спецификации репрезентативного словаря для общей области дискурса, включающей определения классов, отношений, функций и других объектов [3], которые служат формальной основой для представления геопространственных знаний. Особый интерес представляют нехудожественные тексты (новостные сводки, официальные отчеты, сообщения из обсуждений в социальных сетях). Подобные тексты, как правило, содержат в качестве основы описание некоторого события или ситуации через множество связанных между собой фактов. Например, рассматриваемые в рамках данного исследования тексты о чрезвычайных ситуациях техногенного характера включают в себя информацию о географических объектах и связях между ними в контексте произошедших событий. Получаемые при извлечении структурированные данные, такие как RDF-тройки <субъект, отношение, объект> (Resource Description Framework, RDF) [4], представляют собой элементарную семантическую единицу, формализованное высказывание для построения графовых моделей данных, где субъект и объект определены в качестве узлов графа, а отношение — в качестве связующего элемента. Подобные структуры данных позволяют разрабатываемым программным решениям «понимать» семантические связи, имеющие место между геопространственными объектами в рамках конкретной предметной области, что является фундаментом для последующего семантического моделирования и синтеза геоизображений. Автоматическое извлечение отношений из текстов на естественном языке также рассматривается в качестве одной из возможных задач в области обработки естественного языка (Natural Language Processing, NLP). Практическая значимость подобной задачи обусловлена ее ролью в решении множества прикладных проблем. Так, в медицине извлечение временных связей из клинических текстов является инструментом доступа к обширному источнику медицинской информации, который описывает статус пациента, включая клинические заключения, процедуры и информацию о проводимом лечении [5]. В финансовом секторе извлечение связей из финансовых отчетов используется для предоставления инвесторам информации о компании, на основе которой они могут принимать соответствующие решения об инвестировании [6]. В сфере безопасности извлечение связей из текстовых записей о чрезвычайных ситуациях в работе городского железнодорожного транспорта обеспечивает эффективную справочную информацию для принятия решений [7]. В качестве основных типовых задач извлечения данных можно обозначить несколько примеров. Распознавание именованных сущностей (Named Entity Recognition, NER) — идентификация и классификация определенных категорий слов в тексте, например имен людей, названий организаций, даты и времени, числовых и денежных выражений, где одной из специализированных вариаций является извлечение топонимов (наименований географических объектов). Извлечение отношений (Relation Extraction, RE) — определение и извлечение семантических связей между выделенными сущностями. Определение семантических ролей (Semantic Role Labeling, SRL) — процесс определения роли и отношения каждого слова в контексте предложения. Исторически Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 80-105. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 80-105. © Горбунов Р. А., Вицентий А. В., 2025 81
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz