Труды КНЦ (Технические науки вып. 7/2023(14))
Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. Рис. 3. Этап выбора понятия для именованного объекта Если именованная сущность принадлежит классу PER («Персоналия»), то для каждого фильтруемого идентификатора получаются синонимы на русском языке. Затем для каждого идентификатора определяется вес как сумма весов синонимов. Для каждого синонима рассчитывается его сходство в процентах с поисковым запросом. Для этого используется функция token_set_ratio из библиотеки thefuzz, которая рассчитывает процент сходства двух строк по токенам. В зависимости от значения сходства вес синонима определяется следующим образом: • если сходство между поисковым запросом и синонимом меньше или равно 75, вес не присваивается; • если сходство между поисковым запросом и синонимом больше 75, присваивается вес 1; • далее в списке определяется первое вхождение элемента с максимальным весом; • полученный идентификатор присваивается именованной сущности и формируется ссылка на Wikidata. Оценка метода связывания именованных сущностей с понятиями Wikidata Разработанный метод был апробирован на выборке текстов различной тематики. В данную выборку вошли как тексты из фундаментальной электронной библиотеки, связанные с Александром Пушкиным, так и тексты на другую тематику, содержащие именованные сущности классов «Персоналия» (PER) и «Локация» (LOC). © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 11
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz