Труды КНЦ (Технические науки вып. 7/2023(14))

Чтобы представить точность разработанного метода, в табл. 1 показаны результаты тестирования на 5 текстах: • текст 1: статья И. С. Чистовой по стихотворению А. С. Пушкина из письма Вяземскому [17]; • текст 2: текстовая часть раздела «География» из статьи «Википедии» о Южной Америке; • текст 3: фрагмент статьи о Российской империи с сайта Государственного исторического музея [18]; • текст 4: статья Э. В. Кардаш по произведению «Актеон» [17]; • текст 5: статья Я. Л. Левкович по произведению «Будрыс и его сыновья» [17]. Для каждого класса рассчитываются следующие показатели: • количество найденных объектов — общее количество объектов, найденных моделью NER; • количество ошибок модели NER — количество найденных объектов с неправильным именем. К ошибкам относятся сущности с неправильно присвоенным классом и ложноположительные результаты модели NER; • количество действительных ссылок — именованные сущности с действительными ссылками на концепции; • количество недействительных ссылок — количество именованных объектов с найденными недействительными ссылками; • количество истинно недостающих ссылок — количество именованных сущностей, у которых нет связей, и в базе знаний для них нет понятий; • количество ошибочно отсутствующих ссылок — количество именованных сущностей, у которых нет ссылок, но при этом база знаний содержит понятия, описывающие их; • точность связи именованных сущностей — точность разработанного метода в процентах, TRL+TRML Tnf „ ^пи^т- рассчитываемая к а к ------------ , где TRL — количество действительных ссылок; 1RML — количество EF- E ner действительно отсутствующих ссылок; EF — количество найденных объектов; E n e r — количество ошибок модели NER. Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 5-15. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 5-15. Таблица 1 Результаты тестирования метода связывания именованных сущностей с понятиями Wikidata Показатель Текст 1 Текст 2 Текст 3 Текст 4 Текст 5 PER LOC PER LOC PER LOC PER LOC PER LOC Количество ошибок модели NER 3 0 1 2 4 1 2 2 7 0 Количество действительных ссылок 5 6 0 25 11 23 14 1 10 4 Количество недействительных ссылок 2 0 0 3 3 8 1 0 3 0 Количество истинно недостающих ссылок 4 0 0 1 0 0 6 0 3 0 Количество ошибочно отсутствующих ссылок 0 0 0 1 0 0 5 0 0 0 Количество найденных объектов 14 6 1 32 18 32 28 3 23 4 Точность связи именованных сущностей 81% 100% 100% 78% 78% 74% 76% 100% 81% 100% Для сравнения полученных результатов с существующими, «Текст 1» был обработан модулем DeepPavlov Entity Extractor. Благодаря лучшей модели NER было распознано 48 объектов по типу PER и 6 объектов по типу LOC. Однако результат NEL для обоих типов объектов равен 50 % (т. е. оценка типа объекта LOC составила TRL = 3, TRML = 0, EF = 6, E ner = 0). Из-за специфики русского языка © Тесля Н. Н., Шутюк В. Д., Жарков В. М., Витязев А. П., Сиповский Г. В., 2023 12