Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

На рис. 1 представлена общая схема работы «Томита парсера», подключаются словари и наборы правил называемые грамматики для анализа. Рис. 1. Общая схема работы «Томита парсера» Парсером выявляется геоинформация в исследуемых текстах на естественном языке. В результате работы формируется набор слов и словосочетаний, которым противопоставляется их географическая привязка. Извлечённые из текстов на естественном языке пространственные данные в дальнейшем могут быть визуализированы и для визуализации и поддержки принятия решений по управлению территориями. Геовизуализация в контексте решения управленческих задач, может стать достаточно эффективным инструментом для принятия оптимальных решений при реализации проектов в таких сферах как: энергетика, строительство, освоение месторождений полезных ископаемых, и иных. Помимо этого, наглядное представление пространственных данных позволяет повысить понимание уровня социально-экономического развития региона, распределения населения и объектов промышленности по подведомственной территории. На данном этапе проводимого исследования были получены следующие результаты. Была разработана структура файлов для инструмента «Томита- парсер» от компании Яндекс, который используется для извлечения структурированных данных из текста на естественном языке. Такие данные извлекаются для дальнейшего использования в системах поддержки принятия решений по управлению территориями. Предложенная в работе файловая структура на данный момент позволяет проводить анализ текстов по арктической тематике. Были разработаны контекстно-свободные грамматики (правила) с целью повышения эффективности, проводимого при помощи «Томита-парсера» лексико-синтаксического анализа текстов на естественном языке. Такие грамматики используются для выделения фактов. Помимо этого, создан список типовых структур, которые могут быть использованы при проведении исследований текстов на естественном языке иной тематики. На начальном этапе анализа на вход необходимо подавать корпус анализируемых текстов на естественном языке. Затем осуществляется анализ текста, результатом которого являются леммы и грамматические признаки. Для «Томита парсера» был создан газеттир (специальный словарь), в которой были добавлены различные статьи, содержащие информацию о геообъектах, например 53

RkJQdWJsaXNoZXIy MTUzNzYz