Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)
в виде цифровой карты обеспечивается последовательным применением процедур геокодирования и геовизуализации к извлеченным из текстов данным с использованием возможностей современных геосервисов и сервисов геокодирования [1-3]. Учитывая тот факт, что значительная часть цифровых данных в настоящее время представлена неструктурированными текстами, а также то, что почти 60 процентов всех данных, так или иначе, связаны с геопространственными данными, [4] исследования в области выявления пространственных данных в текстах и создания методов и средств их обработки являются актуальными, а результаты анализа тектов могут найти применение в различных прикладных задачах. В связи с этим, разработанная информационная технология визуализации пространственных данных на основе анализа текстов на естественном языке для автоматического построения картографических интерфейсов является актуальной и направлена на удовлетворение информационных потребностей пользователей при решении широкого спектра задач управления региональным развитием. Задача извлечения геоданных из текстов относится к классу задач обработки естественного языка (Natural Language Processing, NLP) [5]. В рамках NLP процесс анализа естественного языка рассматривается как последовательность нескольких уровней обработки. Основными уровнями являются: синтаксис, морфология, семантика, прагматика. [6] Более общими задачами по отношению к NLP являются задачи распознавания именованных сущностей (Named-Entity recognition, NER) и задачи автоматического извлечения содержимого (Automatic Content Extraction, ACE). Различные системы распознавания именованных сущностей предназначены для поиска и классификации упоминаемых именованных сущностей в неструктурированных или полуструктурированных текстах. Для повышения качества распознавания используются заранее заданные категории сущностей. В качестве таких категорий могут выступать, например, названия организаций, геообъектов, различные топонимы и т.д. [7] Описываемая в работе технология включает в себя три основных этапа, которые разбиты на более мелкие шаги. Первый этап связан с подготовкой корпуса документов, подлежащих дальнейшему анализу. Полнота и релевантность сформированного тематического корпуса документов, определяет качество результатов всех последующих этапов технологии. Второй этап связан с анализом текстов и обработкой полученных результатов. Отличительной чертой данной информационной технологии, обуславливающей ее новизну, является то, что анализ тематического корпуса документов проводится параллельно как на основе синтактико-морфологических, так и на основе семантических методов анализа текстов. Такой подход позволяет повысить точность выявления топонимов и других объектов реального мира, имеющих географическую привязку в текстах на естественном языке за счет того, что результаты различных методов анализа текстов используются для дополнения и проверки друг друга. Третий этап технологии связан непосредственно с геокодированием и визуализацией множества выявленных объектов, имеющих пространственную привязку, и построением картографического интерфейса на основе существующих геоинформационных сервисов. Таким образом, на входе информационной технологии визуализации используются тематические текстовые источники на естественном языке, а на выходе синтезируется геоизображение (цифровая карта). Общая схема 116
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz