Труды КНЦ (Технические науки) 2/2022(13).
(maximum entropy model), модель обучения на основе памяти (memory-based learning) и SNoW (sparse network of windows) [27]. Для построения обучающего набора авторы использовали словарь именованных сущностей и корпус, размеченный частями речи, что позволило автоматизировать процесс. Отобранный авторами корпус состоял из 1500 экземпляров для каждого из трех классов. Для того чтобы учитывать контекст, использовалась информация о совместном употреблении категории целевого и заглавного слов (в контексте синтаксического дерева). Предложенный авторами метод продемонстрировал точность в 73,16 % и полноту в 72,98 % и в целом продемонстрировал возможность построения системы классификации именованных сущностей без затрат на создание большого размеченного корпуса или большого набора правил. Гибридные методы. Помимо вышеперечисленных методов, также используются и их произвольные комбинации. Как правило, такое комбинирование используется для повышения общей производительности систем или для преодоления каких-либо трудностей, связанных с нехваткой ресурсов в контексте малоресурсных языков. Так, например, в работе [28] используется комбинация методов на основе правил и МО для создания системы распознавания именованных сущностей на арабском языке. Такой подход позволил авторам повысить общую производительность предлагаемого метода, а также преодолеть проблемы, связанные с нехваткой языковых ресурсов для их языка. В работе [29] авторы используют модель на основе принципа максимальной энтропии, языковые правила и географические справочники для распознавания именованных сущностей на индийском языке. Вначале они обучают базовую модель для распознавания именованных сущностей на размеченном корпусе, затем дополняют ее языковыми правилами для выявления конкретных классов имен собственных, а также в последствии дополняют полученную модель географическими справочниками и контекстными шаблонами для повышения производительности. В рамках международного семинара по семантическому анализу Semeval 5 авторы [30] используют решающие деревья для создания ранжированного списка терминов-кандидатов на основе трех различных наборов признаков. Первый набор был получен с помощью модуля системы GROBID (представляющей из себя библиотеку МО для извлечения, анализа и реструктурирования документов [31]), который использовался для извлечения структурных признаков. Второй набор был получен с помощью различных статистических методов и включал фразеологические и информативные признаки. Третий набор был получен с помощью таких внешних источников знаний, как GRISP [32] и Википедия, и содержал лексические и семантические признаки. Разработанная авторами система заняла первое место среди 19 участников. Извлечение отношений Задача извлечения отношений возможна как в открытой, так и в закрытой (когда набор искомых отношений задан априори) постановках. В первом случае постановка задачи идентична задаче извлечения терминов: найти в тексте лексические представления, обозначающие некоторые отношения между понятиями. При второй постановке задача может трактоваться как задача классификации, при этом подразумевается, что сущности, связь между которыми классифицируется, распознаны заранее. Для классификации отношений используют методы на основе шаблонов или правил, статистические методы и МО. Более ранние работы по извлечению отношений использовали методы на основе правил или шаблонов, статистические методы, но со временем более популярными и доступными стали методы на основе МО [33]. Методы на основе шаблонов или правил. В таких методах используют составленные вручную / автоматически правила или шаблоны на основе синтаксических и морфологических признаков. Как правило, такие методы требуют большого объема работы экспертов для составления правил или шаблонов, однако в процессе эксплуатации они демонстрируют наилучшую эффективность в смысле скорости работы. Например, в работе [34] авторы используют составленные вручную синтаксические правила, реализуемые на платформе GATE (программный набор инструментов, решающий разнообразные задачи обработки текста [35]), с помощью компонента JAPE (механизм шаблонов аннотаций Java [36]) для автоматического извлечения пространственных отношений в китайском языке. Дополнительно они Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. © Пимешков В. К., Шишаев М. Г., 2022 37
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz