Труды КНЦ (Технические науки вып. 7/2023(14))

Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. and existing ones is the analysis of both the named entity itself, its attributes, as well as associated words without the use of machine learning methods. This approach allows to increase the accuracy of searching for a corresponding concept in the knowledge base and eliminates the need to constantly retrain the neural network model to recognize new entities added to the knowledge base. Keywords: named entity, linking, knowledge base, mapping Acknowledgments: the study was carried out within the framework of the state research of the St. Petersburg Federal Research Center of the Russian Academy of Sciences FFZF-2023-0001. For citation: Teslya N. N., Shutiuk V. D., Zharkov V. M., Vityazev A. P., Sipovskii G. V. Method for named entities linking with concepts of the Wikidata knowledge base // Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. doi:10.37614/2949-1215.2023.14.7.001. Введение В настоящий момент многие исследования направлены на разработку различных средств обработки текстов на естественном языке [1]. Одной из таких задач является поиск и классификация определенных объектов — сущностей (Named Entity Recognition — NER). В рамках этой задачи заранее производится выбор заданного набора классов (тегов), по которым классифицируются отдельные слова текста, которые и являются искомыми сущностями. Программные модули, осуществляющие поиск именованных сущностей, используются в различных сферах: от финтех-компаний и банков до медицинских организаций. Более широкой задачей является определение идентичности найденных именованных сущностей. В данном случае говорится о связывании именованных сущностей (Named Entity Linking — NEL) [2], суть которого состоит в том, чтобы не только найти сущность в тексте, но и определить, какому понятию из базы знаний она соответствует. Обе задачи успешно решены для английского языка, однако специфика русского языка не позволяет напрямую использовать эти решения. Для решения задачи NER существуют правила и модели, которые позволяют с высокой точностью находить в текстах ограниченное количество типов сущностей (обычно людей, мест и организаций). Эти модели чаще всего создаются для одного языка, но есть и многоязычные модели, которые также работают с русским языком. Следует учитывать, что из-за специфики обучения базовая точность мультиязычных моделей ниже, чем моноязычных (до 80 % в мультиязычном варианте, против 90 % в моноязычном). В свою очередь, решения задачи NEL разработаны только для одного языка, требуют значительный объем данных для обучения и не могут работать с сущностями, не представленными в обучающем наборе данных [3]. Целью настоящей работы является разработка метода, осуществляющего поиск именованных сущностей в текстах на русском языке и связывающего найденные сущности с понятиями в базе знаний Wikidata. Результатом работы метода является список именованных сущностей, отметка об их принадлежности определенному классу и ссылки на объекты базы знаний. Апробация проводится на справочных текстах о творчестве А. С. Пушкина, размещенных на ресурсе фундаментальной электронной библиотеки «Русская литература и фольклор» [4]. Обзор связанных работ Задачу связывания именованных сущностей можно условно разделить на две подзадачи. Первой является поиск именованных сущностей в тексте, а второй — поиск соответствующего объекта в базе знаний. В разделе рассмотрены работы, соответствующие этим подзадачам. Существует множество подходов к решению проблемы NER. В обзоре представлены наиболее часто используемые [5]: анализ грамматики на основе правил и применение моделей нейронных сетей с глубоким обучением. Подход к анализу грамматики включает методы, использующие набор правил и словарей, которые создаются экспертами вручную. Методы, основанные на этом подходе, дают наиболее точный результат поиска именованных сущностей. Но в то же время они сложны в реализации, поскольку © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 6

RkJQdWJsaXNoZXIy MTUzNzYz