Труды КНЦ (Технические науки вып. 7/2023(14))
Использование баз знаний. Предлагаемый в данной статье метод основан на поиске понятий в базе знаний для обработки неизвестных сущностей из текста. Поэтому база знаний должна быть универсальной для выполнения связывания. Лучшим решением в этом случае будет использование базы знаний на основе «Википедии», поскольку она содержит максимальное количество информации по многим объектам мира. Крупнейшими базами знаний, основанными на «Википедии», являются Wikidata и DBPedia. DBPedia — одна из самых популярных баз знаний общего назначения. Она содержит информацию о более чем 5 млн объектов, полученных из Wikipedia. DBPedia хранит и представляет информацию в виде графа знаний RDF. Wikidata, как и DBPedia, хранят данные в виде графа и являются крупнейшей общедоступной базой знаний общего назначения. По состоянию на 2023 г. Wikidata содержит около 106 млн объектов. Поскольку DBPedia основана на RDF-графе, информация о любой сущности представлена как совокупность связей этой сущности с другими сущностями или литералами посредством свойств (предикатов), остальные элементы DBPedia могут предоставить только вторичную информацию об объекте, которую невозможно использовать для решения проблемных задач. В отличие от DBPedia, граф знаний Wikidata имеет свою, более сложную, модель данных, которая не основана на RDF-графе, но в то же время может быть сведена к нему. Каждая сущность в Wikidata, независимо от типа, состоит из следующих основных компонентов: • название (label) — каноническое имя элемента на разных языках; • описание (description) — текстовое описание предмета на разных языках; • псевдоним (alias) — набор вариантов названия или названия предмета на разных языках; • выражение (statement) — это сложные объекты, содержащие как литералы, так и объекты, описывающие отношения между рассматриваемым элементом и связанными элементами; • идентификаторы (identificator) — набор идентификаторов элементов в других базах знаний или ресурсах. Описание метода NEL для связывания с понятиями Wikidata Предлагаемый метод поиска и связи именованных сущностей с их понятиями в графе знаний Wikidata можно разделить на два этапа: 1) поиск именованных объектов в тексте с использованием предварительно обученной модели NER; 2) связывание найденных названных объектов с их концепциями в Wikidata. Предварительным этапом работы метода является обработка текста, в ходе которой удаляются некорректные символы и текст разделяется на предложения. Для сегментации на предложения используется библиотека razdel [15], в основе которой лежит система правил, разработанная специально для русского языка. Рассмотрим каждый из этапов более подробно. Поиск именованных объектов для текстов на русском языке. Для каждого предложения модель NER возвращает список токенов и список меток в формате BIO с классом, присвоенным каждому токену. Набор полученных именованных сущностей дополняется соответствующими леммами для обеспечения более высокой эффективности поиска понятий в базе знаний. Для лемматизации именованных сущностей используется библиотека pymystem3 [16]. Связывание именованных объектов с понятиями графа знаний Wikidata. Алгоритм связывания именованных объектов с понятиями графа знаний Wikidata состоит из трех основных этапов: 1) поиск понятия в базе знаний; 2) фильтрация результатов поиска; 3) выбор концепции для именованного объекта. Поиск понятия в базе знаний. Алгоритм выполняется последовательно для каждой уникальной леммы именованного объекта (рис. 1). Лемма используется в качестве параметра поискового запроса в графе знаний Wikidata. Поиск осуществляется по тегам и синонимам с использованием API Wikimedia, для этого используется параметр wbsearcentities. Поисковый запрос возвращает 10 наиболее релевантных результатов. Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RA s . Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 8
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz