Труды КНЦ (Технические науки) 2/2022(13).

В данной работе мы рассмотрим проблему извлечения отношений из размеченных предложений, полученных в результате применения уже обученной модели на наборе текстов. Предполагается, что в таких предложениях уже существует понятие, релевантное исходной онтологии, и требуется найти связанное с ним некоторым отношением другое понятие. Обзор существующих подходов к извлечению отношений Извлечение отношений из текста — это подзадача NLP, ориентированная на выявление отношений между парами сущностей в неструктурированных текстовых данных. В ранних работах по извлечению отношений из текста использовались подходы на основе правил (например, паттерны Hearst [4, 5]), а также признаковые модели. Например, Mintz и др. [6] учитывали в модели лексические признаки, такие как: последовательность слов между двумя сущностями и их тэги частей речи; маркер, указывающий, какая сущность появляется первой в предложении; количество токенов слева от первой сущности и количество токенов справа от второй сущности, а также их тэги частей речи. Кроме того, авторы извлекали путь зависимости (dependency path) между двумя сущностями как синтаксический признак, а также их типы. В работе [7] для извлечения отношений учитывали следующие признаки: главные токены двух сущностей, токены двух сущностей, токены между двумя сущностями, их теги частей речи, порядок следования двух сущностей, расстояние между ними и кластер Брауна [8] для каждого токена. В недавних исследованиях задачу извлечения отношений решают с использованием нейросетевых моделей на основе архитектуры Transformer [9]. Данные работы можно условно разделить на две группы: первая группа ориентирована на извлечение отношений в рамках предложения [10-12], а вторая — на извлечение отношений в рамках документа [13, 14]. Например, в работе [10] представлен фреймворк CASREL на базе BERT-модели, который позволяет идентифицировать все возможные тройки токенов (субъект, отношение, объект) в предложении, где некоторые такие тройки могут включать одинаковые сущности. Первым этапом в предложении идентифицируются все возможные токены-субъекты. Вторым этапом, используя обученные для каждого типа отношения тэггеры и выявленные токены-субъекты, идентифицируются все возможные отношения и соответствующие токены-объекты. В работе [11] на вход предобученной BERT-модели передается предложение, в котором позиции двух сущностей, между которыми необходимо определить отношение, помечены специальными токенами. BERT учитывает эти позиции, а также контекст предложения, благодаря чему более точно предсказывает отношение между сущностями. В работе [12] авторы генерируют обучающие наборы данных, содержащие операторы отношений, представляющие собой предложения, в которых сущности заменены токеном [BLANK]. Модель BERT принимает на вход пару таких операторов отношений, содержащих одинаковые маскированные сущности, а на выходе строит их схожие векторные представления отношений. Помимо архитектуры Transformer в последнее время стало распространенной практикой использование архитектуры на базе графовых сверточных сетей (Graph Convolutional Network, GCN). GraphRel [15] позволяет извлекать не только отношения, но и сами сущности в два этапа. На первом этапе, применяя двунаправленные рекуррентные и GCN сети, извлекаются последовательные и локальные признаки слов, с учетом которых предсказываются отношения для каждой пары слов, а также их типы. На втором этапе для каждого предсказанного отношения строятся полные реляционные графы, к которым последовательно применяются GCN. В результате этого этапа извлекаются достаточные признаки слов, с учетом которых выполняется более точная классификация сущностей и отношений. В качестве работ, рассматривающих извлечение отношений в рамках документа, можно привести работы [13, 14]. В работе [13] для этой цели также используют BERT-модель. Чтобы точнее описать каждое упоминание сущности в тексте, авторы предлагают маскировать сущности двумя специальными токенами, один из которых — тип сущности, а второй указывает на номер сущности в документе (например, «[LOC] Австралия [MASK_1]»). Такое представление входных данных обеспечивает более точное определение типов отношений между сущностями, а также позволяет решить проблему кореференции за счет связывания слов одинаковым токеном в разных предложениях. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 23-30. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. © Ломов П. А., Никонорова М. Л., Шишаев М. Г., 2022 25