Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))
логистические задачи [8, 9], разработка и наполнение онтологий [10, 11], исследование социальных сетей [12, 13], анализ медицинских документов [14], поиск географической информации [15, 16] и других. В этой работе описывается информационная технология, которая позволяет извлекать геоатрибутированные сущности из текстов на естественном языке, а затем, на основе извлеченных данных, генерировать картосхемы, отображающие пространственную связность геоатрибутированных сущностей, упомянутых в тексте. 2. Материалы и методы Для извлечения именованных географических сущностей из текстов на естественном языке применяются методы, используемые для решения задач информационного поиска [17], распознавания именованных сущностей [18], и поиска географической информации [19]. Реализованные в современных программных средствах методы и алгоритмы для извлечения геоданных из текстов основаны, как правило, на более общих методах распознавания именованных сущностей [20-22]. Однако, все разнообразие подходов в области распознавания именованных сущностей можно разделить на три категории: подходы, основанные на использовании нейронных сетей и машинного обучения; подходы, основанные на использовании правил; гибридные подходы [23, 24]. На сегодняшний день практически все state-of-the-art решения задачи распознавания именованных сущностей основаны на нейросетевом подходе. Именно этот подход показывает наилучшие результаты при относительно небольших трудозатратах при разработке. Кроме того, за последние годы было создано большое количество различных фреймворков, библиотек и обучающих выборок, которые значительно облегчают создание готовых решений. Подходы на основе правил находят применение в основном при работе со сложными или специфическими предметными областями [25-27], для создания систем, работающих с языками с богатой морфологией или восточными и азиатскими языками [28, 29], а также в гибридных системах, объединяющих достоинства обоих подходов. Предварительная оценка возможностей современных инструментов распознавания именованных сущностей (SpaCy, Google Cloud NLP, Natasha, и других) с точки зрения решения задачи извлечения геоатрибутированных сущностей для визуального представления пространственной связности показала, что ни один из этих инструментов не может обеспечить распознавание пространственных отношений в текстах на естественном языке. Эксперименты проводились как для русскоязычных, так и для англоязычных текстов. В связи с этим, нами была предложена гибридная информационная технология извлечения геоатрибутированных сущностей, позволяющая распознавать в текстах на естественном языке не только географические именованные сущности, но и информацию о пространственных связях (связях, имеющих географический смысл) распознанных географических объектов. Гибридная информационная технология объединяет возможности нейросетевого подхода, подхода на основе правил и анализа текста на основе лексико семантических шаблонов. Данные, полученные в результате обработки текстов с помощью предложенной технологии извлечения геоатрибутированных 37
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz