Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

особенностей, которые осложняют распознавание именованных сущностей [34, 35]. Эти особенности необходимо учитывать при выборе инструмента обработки русскоязычных текстов. Поэтому в качестве инструмента для распознавания именованных сущностей мы выбрали библиотеку Natasha [36] реализованную на основе дистилляции языковой модели BERT от компании Google [37] и обученную на корпусе русскоязычных текстов. Эксперименты показали, что с помощью библиотеки Natasha удается распознать около 97 - 98 % именованных сущностей (топонимов), что соответствует заявленным характеристикам библиотеки и возможностям современных инструментов распознавания именованных сущностей. Особенностью описываемой гибридной информационной технологии является то, что в результате работы первого этапа анализа текста мы получаем не только распознанные именованные сущности, но также формируем и сохраняем в отдельные текстовые блоки, включающие предложения, в которых они были найдены, и окрестность этих предложений для обработки на последующих этапах технологии. Окрестность формируется с помощью метода «скользящего окна». Таким образом, окрестностью предложения, содержащего именованную сущность, является одно или несколько предложений, находящихся в тексте справа и (или) слева от него. Размер окрестности задается размером скользящего окна. Окрестность необходима для того, чтобы учитывать контекст при распознавании геоатрибутированных сущностей типа пространственное отношение на следующих этапах анализа текста в рамках предложенной гибридной технологии. Чем больший размер окна будет выбран, тем большая окрестность будет сформирована и тем более широкий контекст может быть учтен при последующем анализе текста. Однако, необоснованное расширение окрестности повышает количество ошибок при распознавании пространственных отношений. Это связано с тем, что при чрезмерно большом размере окрестности происходит захват контекстов, не имеющих отношения к анализируемому предложению. На основе нескольких проведенных экспериментов эмпирическим путем был выбран наиболее эффективный размер окна [-1; +1]. Это значит, что в качестве окрестности сохранятся одно предложение слева от предложения с распознанным топонимом и одно предложение справа от него. Ввиду того, что современные нейросетевые инструменты обработки естественных языков плохо справляются с распознаванием сложных топонимов и пространственных отношений географических объектов, вторым этапом гибридной информационной технологии извлечения геоатрибутированных сущностей является этап синтаксико-морфологического анализа текста на основе применения правил и словарей. Этот этап позволяет повысить полноту распознавания геоассоциированных сущностей, а также распознавать в тексте указания на пространственные отношения между различными географическими объектами, например, за счет использования ключевых слов, собранных в словари. В качестве инструмента анализа текста на втором этапе мы используем Yargy-парсер [38], реализующий алгоритм синтаксического анализа Earley [39]. Yargy-парсер позволяет использовать пользовательские грамматики и словари для анализа текста, благодаря чему появляется возможность распознавать, например, такие сложные топонимы, как «Путевая Усадьба 9 км железной дороги 39

RkJQdWJsaXNoZXIy MTUzNzYz