Труды КНЦ (Технические науки) 2/2022(13).

Методы на основе внешних источников используют внешние источники знаний, такие как Википедия, DBpedia, YAGO и т. д., что позволяет полностью или частично заместить эксперта предметной области за счет извлечения из этих источников некоторой априори имеющейся структуры знаний о предметной области, которые затем расширяются на основе данных из естественно-языковых текстов. Например, в работе [16] используется Википедия для идентификации и классификации именованных сущностей с целью создания размеченного корпуса для МО. Такой подход позволяет обойтись без человека-эксперта для разметки текстового корпуса. Также авторы предлагают метод, использующий данные на английском языке, для воссоздания процесса распознавания именованных сущностей на других языках. В работе [17] предлагается метод, использующий данные DBpedia, для расширения и обогащения составленного вручную лексикона товаров. Авторы работы начинают с небольшого, составленного вручную словаря и, используя данные DBpedia и формат SKOS для представления знаний, расширяют словарь с дюжины до около двух тысяч терминов (рис. 5). Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. Словари и Географические справочники " ~ Г Рис. 5. Архитектура системы расширения лексикона [17] Методы на основе МО. Суть методов данной группы заключается в создании (тренировке) модели МО, способной распознавать сущности на основе множества различных признаков. Для решения задач распознавания именованных сущностей [18-21] или задач извлечения терминологий [22-24] применяется практически весь спектр различных архитектур моделей и методов МО. Ниже приведены примеры использования МО для извлечения терминов и именованных сущностей. Например, в работе [25] рассматривается опыт применения семи методов МО с обучением с учителем (supervised learning) для классификации N-грамм на термины и нетермины на основе предположения о том, что термины, специфичные для какой-либо предметной области, имеют признаки (морфологические, дистрибутивные, контекстные, предметно-областные и т. д.), отличающие их от обычных слов. Авторы работы [26] используют метод на основе ансамблевого обучения без учителя для классификации имен собственных на имена людей, организаций и локаций, полагаясь на форму написания имен и контекст, в котором они появляются. Предлагаемая модель принимает во внимание синтаксические отношения в предложении для устранения семантической неоднозначности и использует три различных метода обучения в ансамбле: модель на основе принципа максимальной энтропии © Пимешков В. К., Шишаев М. Г., 2022 36

RkJQdWJsaXNoZXIy MTUzNzYz