Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

Abstract This paper considers the problem of extracting geoattributed entities from natural language texts to visualize the spatial relations of geographical objects. For visualization we use the technology of automated generation of schematic maps as subject-oriented components of geographic information systems. The paper describes the information technology that allows extracting geoattributed entities from natural language texts by combining several approaches. These are the neural network approach, the rule-based approach and the approach based on the use of lexico-syntactic patterns for the analysis of natural language texts. For data visualization we propose to use automated geocoding tools in conjunction with the capabilities of modern geographic information systems. The result of this technology is a cartogram that displays the spatial relations of the objects mentioned in the text. Keywords natural language processing, named entity recognition, cartographic interface, geovisualization, schematic map Funding The article was supported by the federal budget to carry out the state task of the FRC KSC RAS No. 0226-2019-0036. For citation: Vicentiy A. V., Shishaev M. G. The geoattributed entity extraction technology for visual representation of objects spatial relations based on automated schematic map generation // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 35-49. http://dx/doi.org/10.37614/2307- 5252.2021.5.12.003. 1. Введение В настоящее время в свободном доступе находится огромное количество текстовой информации. Как правило, это неструктурированные или слабо структурированные тексты на естественном языке. Причем в различных отчетах и обзорах, касающихся оценки аудитории Интернет и связанных с этим вопросов, отмечается, что в 2021 году количество пользователей сети Интернет росло особенно быстро. Некоторые исследователи связывают этот факт с пандемией Covid-19. Интенсивный приток пользователей Интернет, как абсолютно новых, так и просто создающих новые аккаунты, явился одним из «побочных эффектов» пандемии. В любом случае, вне зависимости от причин, увеличение пользователей будет способствовать дальнейшему увеличению количества естественно языковых текстов в информационном пространстве. А увеличение количества и разнообразия свободно доступных текстов, в свою очередь, будет способствовать повышению их привлекательности в качестве источника для автоматического извлечения данных и знаний с помощью современных методов обработки текстов на естественном языке (Natural Language Processing, NLP) [1, 2]. Учитывая тот факт, что большая часть данных в сети Интернет в явном или неявном виде ассоциирована с геоданными, например, имеет географическую привязку, геотеги, или содержит указание на географические объекты [3], создание новых и развитие существующих подходов и методов для распознавания географических сущностей и извлечения геоданных из текстов будет становиться все более важной и актуальной задачей. Кроме того, развитие методов автоматизированного извлечения данных, включая геоданные, и знаний (семантики) из естественно-языковых текстов имеет большое прикладное значение. Эти данные и знания, преобразованные в удобный для решения конкретной задачи вид, находят применения в таких областях как поддержка принятия решений [4], анализ текстов [5-7], 36