Труды КНЦ (Технические науки) 2/2022(13).

Статистические методы. Одним из примеров реализации статистического подхода является subsumption method, использующийся для формирования иерархических систем понятий. Метод опирается на предположение, что «концепт А включает В, если документы, в которых встречается В, являются (или почти являются) подмножеством документов, в которых встречается А» [40]: DKL(A I В ) —DKL(B I А~) < THN, где в левой части неравенства — сравнение взаимных условных вероятностей двух терминов, а в правой — некоторый порог чувствительности или «шума». Так же как и в случае методов на основе правил, в основе статистического подхода лежат эвристические предположения о статистических свойствах коллекций данных, индицирующих наличие искомого отношения, что затрудняет их широкое применение для извлечения произвольных отношений между концептами. Вместе с тем, статистические методы предъявляют повышенные требования к объему доступных данных (наблюдений) для получения статистически значимых результатов. Методы на основе внешних источников используют знания (то есть используют не просто текст из внешнего источника, но и структуру этого источника) из различных внешних источников для решения поставленной задачи. Например, в работе [41] авторы используют структуру Википедии для отбора кандидатов отношений с помощью шаблонов и добавления новых отношений в граф знаний. В основе авторского метода лежит предположение, что между концептами, представленными двумя страницами Википедии р0 и рг, может присутствовать некоторое отношение R, если аннотация страницы р0 ссылается на р1 и соответствующие сущности е0 и ег из онтологии DBpedia по типам удовлетворяют требованиям отношения R к субъекту и объекту. В результате своей работы авторы демонстрируют, что аннотации Википедии и, соответственно, ее структура могут использоваться как значимый источник знаний для расширения графа знаний. Методы на основе МО. Обзор методов извлечения отношений на основе МО можно найти во многих работах, например в [2, 33, 42, 43]. Выигрышной стороной МО является универсальность используемого алгоритма с точки зрения вида извлекаемых отношений, проблема лишь в формировании достаточно большого корпуса так или иначе размеченных текстов и выборе набора признаков, эффективно индицирующих наличие искомого отношения между понятиями. Например, в работе [44] используется многозадачное обучение (multi-task learning, которое также можно встретить под названием joint learning) для совместного извлечения биомедицинских концептов и отношений между ними. Вначале авторы трансформируют задачу совместного извлечения в задачу разметки, в рамках которой предлагается новая схема разметки и правила для извлечения пересекающихся отношений в биомедицинских текстах. С помощью предложенной схемы разметки авторы создают обучающий корпус. Затем на этом корпусе авторы тренируют модель BiLSTM-CRF, использующую механизм внимания. Модель тренируют с использованием статичных эмбендингов (векторных представлений) слов и знаков и дополнительно с использованием контекстуализированных эмбендингов ELMo для проверки их эффективности в рамках решаемой задачи. Затем обученная модель используется для разметки текста, из которого с помощью предлагаемых авторами правил извлекаются отношения (рис. 8). В работе [45] авторы объединяют предварительно обученную модель BERT со стратегией многозадачного обучения для совместного извлечения полезных в контексте решаемой задачи концептов (распознавание именованных сущностей) и отношений между ними (извлечение отношений) из протоколов медицинских исследований. Авторы используют BERT в качестве эмбендингового слоя, после которого следует слой распознавания именованных сущностей, состоящий из входного полносвязного и выходного слоев. За этим слоем следует слой классификации отношений, использующий результаты работы слоя распознавания именованных сущностей и BERT-слоя для решения задачи извлечения отношений. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. © Пимешков В. К., Шишаев М. Г., 2022 39

RkJQdWJsaXNoZXIy MTUzNzYz