Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Луостари-Никель», распознавание которых с помощью нейросетевых подходов практически невозможно. Каждый текстовый блок (предложение + окрестность), полученный на первом этапе, обрабатываются парсером отдельно, в рамках «локального контекста» каждого блока. Это позволяет повысить точность распознавания геоатрибутированных сущностей типа пространственное отношение, а также определить тип пространственного отношения (автомобильная дорога, зимник, переправа, авиарейс, железная дорога, и так далее.) и его атрибуты, если они указаны в тексте. Эффективность анализа текстов на втором этапе сильно зависит от предметной области, а также качества разработанных правил и словарей. Основная сложность подхода, основанного на словарях и правилах, заключается с том, что учесть все возможные варианты геоатрибутированных сущностей, имеющих значение для визуализации пространственных отношений очень сложно. Поэтому третьим этапом анализа текста в рамках гибридной информационной технологии извлечения геоатрибутированных сущностей является анализ текстов с использованием лексико- семантических шаблонов. В контексте решения задач обработки естественного языка под лексическим шаблоном понимается декларативная структура, некоторый структурный образец языковой конструкции, который отображает её лексические и синтаксические свойства. То есть это описание некоторого смыслового явления, например такого, как пространственная связь объектов, в виде некоторой «устойчивой фразы» или «языковой формулы». Такие шаблоны называют также лексико-синтаксическими или лексико-семантическими [40]. В работе [41] лексико-семантический шаблон определяется как структурный образец целевой языковой конструкции с указанным составом и лексико-семантическими свойствами, а в случае успешного сопоставления шаблона с фрагментом анализируемого текста формируется лексический объект, которому могут быть приписаны формальные (позиционные) и семантические (класс и свойства) характеристики. Таким образом, лексико-семантический шаблон состоит из логической структуры и семантического описания. Лексико­ семантические шаблоны представляют собой характерные выражения (словосочетания), конструкции из определенных элементов языка (коллокации) и позволяют построить семантическую модель, соответствующую тексту, к которому они применяются [42]. Мы считаем, что, используя лексические шаблоны можно распознавать в текстах такие лексические конструкции, которые описывают пространственные связи между географическими объектами. В рамках разработки гибридной информационной технологии извлечения геоатрибутированных сущностей мы предлагаем оригинальный подход к решению задачи распознавания пространственной связности географических объектов. Отличительной чертой этого подхода является создание и использование лексико-семантических шаблонов, представляющих собой устойчивые словосочетания нескольких слов, имеющих грамматическую и смысловую связь в раках локального контекста текстовых блоков, выделенных на предыдущих этапах технологии. Для анализа текстов с помощью лексико-семантических шаблонов был разработан набор первичных шаблонов, соответствующих предметной области. Этот набор был задан эвристически, что является относительно трудоемким процессом и требует знания предметной области. Однако, конструктивно точное 40

RkJQdWJsaXNoZXIy MTUzNzYz