Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

описание состава и структуры лексико-синтаксических шаблонов позволяет распознавать в текстах геоатрибутированные сущности типа пространственное отношение, которые сложно распознать с помощью других подходов. Разработанные шаблоны описывают коллокации двух и более слов [43] и составлены с учетом как грамматических шаблонов, характерных для русского языка в целом [44], так и рамок валентностей для отдельных лексем [45]. Помимо повышения точности распознавания геоатрибутированных сущностей, одной из задач, которая решается с помощью применения разработанных нами лексико-семантических шаблонов в данной работе, является определение семантических свойств (атрибутов), а также классификация геоатрибутированных сущностей. Набор семантических атрибутов описывается на уровне класса сущности, но, при необходимости, может быть переопределен. Например, такие геоатрибутированные сущности как «дорога», «автострада», «автодорога», «автомагистраль» и т.п. будут отнесены к классу «автомобильная дорога». Класс геоатрибутированной сущности определяет набор её атрибутов (например, одним из атрибутов класса «автомобильная дорога» является атрибут «тип покрытия»), а также используется для выбора способа отображения для визуализации при генерации картосхем. Первичный набор лексико-семантических шаблонов был разработан с использованием модифицированной версии языка LSPL [46], и предназначен для формального описания наиболее часто встречающихся языковых конструкций русского языка, для целей извлечения информации о геоатрибутированных сущностях в анализируемых текстах. Базовый синтаксис описания шаблонов удалось существенно упростить за счет учета особенностей рассматриваемой предметной области, а также за счет того, что шаблон применяется не ко всему тексту, а к текстовом блокам, выделенным на предыдущих этапах технологии. Например, простой шаблон, описывающий одну из наиболее распространенных синтаксических конструкций, характерных для рассматриваемой предметной области, представленной несколькими идущими подряд адъективами и именной группой (или отдельным существительным) может быть описан следующим образом: LSP1 = {A _or_ P} N({aw}) <A = N, P = N, A = P>, где LSP1 - имя шаблона; {A _or_ P} - множество идущих подряд адъективов, количество которых не фиксировано; N({aw}) - существительное (или именная группа) из множества «якорных слов», являющихся подмножеством ключевых слов, соответствующих предметной области и определенных на втором этапе технологии; <A =N, P =N, A = P> - оператор грамматического согласования частей речи. С помощь такого шаблона из фразы «Новая асфальтовая автодорога будет проложена между Мурманском и Белокаменкой.» будет выделена геоатрибутированная сущность «автодорога» класса «автомобильная дорога», а также значение «асфальтовая» атрибута «тип покрытия». Для адъективов, распознанных с помощью шаблона, но не относящихся ни к одному из определенных атрибутов введен дополнительный атрибут «прочие характеристики», куда, в данном случае, будет записано значение «новая». Вторая стадия технологии, реализующая процедуры автоматического геокодирования и геовизуализации, описана в предыдущей работе по данной тематике [47] и в рамках данной статьи подробно рассматриваться не будет. Отметим только, что для оперативной генерации картосхем используются возможности современной ГИС, что позволяет синтезировать картосхемы почти 41

RkJQdWJsaXNoZXIy MTUzNzYz