Труды КНЦ (Технические науки вып. 7/2023(14))
Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. Научная статья УДК 004.853 doi:10.37614/2949-1215.2023.14.7.001 МЕТОД СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ В ТЕКСТЕ С ПОНЯТИЯМИ БАЗЫ ЗНАНИЙ WIKIDATA Николай Николаевич Теслят , ВсеволодДмитриевич Шутюк2, Владислав Михайлович Жарков3, Арсений Павлович Витязев4, Георгий Васильевич Сиповский 5 13-5Санкт-Петербургский федеральный исследовательский центр Российской академии наук, Санкт-Петербург, Россия 2ООО «Тинькофф инвестиционные технологии», Санкт-Петербург, Россия 1teslya@iias.spb.suB, https://orcid.org/0000-0003-0619-8620 2vsevolod.sh utyuk@gmail.com 3zharkov201347@gmail.com 4vitars2001@yandex.ru 5sipovsky2010@yandex.ru Аннотация В работе представлен метод для автоматического связывания именованных сущностей в русскоязычных текстах с понятиями из базы знаний Wikidata. В его основе лежит использование инструментов поиска именованных сущностей c последующим семантическим анализом соответствия найденной сущности понятию в базе знаний. Полученные связи в дальнейшем могут быть использованы для формирования связанного корпуса текстов в любой предметной области. Отличием представленного метода от существующих является анализ как самой именованной сущности, так и ее атрибутов, и связанных с ними слов без использования методов машинного обучения. Данный подход позволяет повысить точность поиска соответствующего понятия в базе знаний и снимает необходимость постоянного переобучения нейросетевой модели на распознавание новых сущностей, добавляемых в базу знаний. Ключевые слова: именованная сущность, связывание, база знаний, сопоставление Благодарности: исследование выполнено в рамках государственного задания Санкт-Петербургского федерального исследовательского центра Российской академии наук FFZF-2023-0001. Для цитирования: Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В. Метод связывания именованных сущностей в тексте с понятиями базы знаний Wikidata // Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, №. 7. С. 5-15. doi:10.37614/2949-1215.2023.14.7.001. Original article METHOD FOR NAMED ENTITIES LINKING WITH CONCEPTS OF THE WIKIDATA KNOWLEDGE BASE Nikolay N. Teslya1B, Vsevolod D. Shutiuk2, Vladislav M. Zharkov3, Arseny P. Vityazev4, Georgiy V. Sipovsky 5 13-5Saint-Petrsburg Federal research center o f the Russian academy of sciences, St. Petersburg, Russia 2LLC TINKOFF INVESTMENT TECHNOLOGIES 1teslya@iias.spb.suB, https://orcid.org/0000-0003-0619-8620 2vsevolod.sh utyuk@gmail.com 3Zharkov.V@iias.spb.su 4Vityazev. A@iias.spb.su 5Sipovskij.G@iias.spb.su Abstract The paper presents a method for automatically linking named entities in Russian-language texts with concepts from the Wikidata knowledge base. It is based on the use of named entity search tools with subsequent semantic analysis of the correspondence of the found entity to the concept in the knowledge base. The resulting links can later be used to form a linked corpus of texts in any subject area. The difference between the presented method © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 5
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz