Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))
сущностей, визуализируются в виде картосхем. Генерация картосхем реализована на основе модификации методик и программных модулей геокодирования и визуализации описанных в наших предыдущих работах [30]. Материалами для анализа послужили русскоязычные тексты арктической тематики. Основными источниками текстов служили новостные ресурсы в сети Интернет, официальные сайты органов исполнительной власти и муниципалитетов, а также электронных средств массовой информации. Значительная часть текстов была собрана на предыдущих этапах исследования [31, 32] и в том или ином виде связана с описанием транспортно-логистической системы арктической зоны Российской Федерации. 3. Результаты Как было сказано выше, технологию извлечения геоатрибутированных сущностей для визуального представления пространственной связности объектов на основе автоматизированной генерации картосхем можно разделить на две основные стадии - I) стадия распознавания геоатрибутированных сущностей и II) стадия геокодирования и геовизуализации. В данной работе в качестве рабочего определения геоатрибутированной сущности мы используем следующее определение. Геоатрибутированная сущность (ГаС) это некоторый объект реального (физического) мира, имеющий географические координаты и географический смысл в рамках решаемой задачи. В естественно языковых текстах геоатрибутированная сущность может быть названа как «прямым способом» (например, «Хибины», «Мурманск», и т.д.), так и «описательным» («железнодорожная линия станция Выходной - мостовой переход через р. Тулома - станция Мурмаши 2 - станция Лавна», «дорога от Мурманска до Белокаменки»). Распознавание геоатрибутированных сущностей, определяемых в текстах описательным способом, является сложной задачей, не имеющей стандартного решения в настоящее время. Таким образом, под геоатрибутированной сущностью в этой работе мы понимаем как «стандартные» географические именованные сущности (например, топонимы), так и пространственные отношения между ними. Например, в предложении «Новая автодорога будет проложена между Мурманском и Белокаменкой.» мы можем выделить три геоатрибутированные сущности. «Мурманск» и «Белокаменка» являются именованными сущностями типа местоположение (топоним), а «автодорога» является геоатрибутированной сущностью типа пространственное отношение [33]. Следует отметить, что сущности типа местоположение довольно хорошо распознаются существующими средствами распознавания именованных сущностей, а для распознавания сущностей типа пространственное отношение нет стандартных общепринятых подходов и готовых решений. Поэтому для распознавания пространственных отношений в текстах на естественном языке приходится применять комбинацию нескольких подходов обработки естественного языка. При этом, как правило, приходится учитывать особенности предметной области. Стадию распознавания геоатрибутированных сущностей рассматриваемой технологии можно разделить на три основных этапа. На первом этапе выполняется обработка предварительно подготовленных текстов с помощью искусственной нейронной сети. Русский язык обладает рядом 38
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz