Труды КНЦ (Технические науки) 2/2022(13).

В работе [14] для извлечения отношений в рамках документа также используют GCN. Авторы рассматривают каждый токен в документе как узел в графе, а для создания связей между ними используют отношения из дерева зависимостей предложения, ребра кореференции (соединяют токены документа, которые относятся к одной и той же сущности), ребра смежности слов и предложений (для сохранения последовательности информации) и ребра-петли (чтобы учесть информацию о самих узлах). Другим примером решения задачи извлечения отношений является ее рассмотрение как вопросно-ответной задачи [16]. Первым этапом, используя шаблоны вопросов о типе сущности, из исходного предложения извлекают сущность-субъект отношения. Вторым этапом генерируется вопрос, используя шаблоны отношений, куда помещают эту сущность-субъект. В результате ответа на данный вопрос извлекается само отношение и сущность-объект отношения. В работе [17] используют прототипы для извлечения отношений. Прототипами называют представления (embeddings) в пространстве признаков, которые выделяют наиболее важную семантику отношений между сущностями в предложениях. Прототипы представляют собой центры кластеров, представляющих множество предложений, выражающих одно и то же отношение. По словам авторов, такой подход позволяет выделить значимые, интерпретируемые прототипы для окончательной классификации отношений. Процедура извлечения отношений между понятиями на основе дерева синтаксического анализа предложения В данной работе извлечение отношений для последующего их добавления в онтологию производится в рамках отдельных предложений из текстов предметной области. При этом рассматриваются только те предложения, в которых модель, обученная с применением технологии, описанной в предыдущей работе [3], обнаружила понятия, соответствующие тематике пополняемой онтологии. Таким образом, предполагается, что слова, представляющие отношение, и понятия, которое оно связывает, находятся в одном предложении. В основе алгоритма лежит гипотеза о том, что отношение между понятиями может быть выражено: 1) через сказуемое, представленное глаголом, который является корнем синтаксического дерева предложения; 2) синтаксические отношения между словами внутри именных групп. Например, в именной группе «пресс-секретарь полиции Сассекса» можно выделить отношения между парами слов: « пресс-секретарь »— « полиции » и « полиции »— « Сассекса ». С учетом данной гипотезы анализ предложений с целью обнаружения в них отношений производится следующим образом: 1. Для каждого предложения с помощью предобученной языковой модели из библиотеки spaCy [18] формируется дерево синтаксического анализа. 2. Далее производится обход дерева, начиная с его вершины, и формирование N-грамм путем комбинации слова с текущего уровня дерева и связанных с ним слов с дочерних уровней. Таким образом представлялись различные варианты разбивки именных групп предложения на фрагменты, соответствующие возможным понятиям. На данном этапе исследования рассматривались униграммы и биграммы, то есть комбинации из одного и двух слов. Например, именная группа «пресс-секретарь полиции Сассекса» представлялась в виде N-грамм: «пресс-секретарь», «пресс-секретарь полиции», « полиции », «полиции Сассекса ». 3. Среди сформированных N-грамм осуществляется поиск вероятных понятий предметной области — участников отношений. Для их выявления предварительно на большом наборе текстов по тематике предметной области обучается Word2Vec-модель [19]. С помощью нее оценивается близость векторов полученных N-грамм и векторов исходного списка понятий онтологии. Если среднее расстояние между вектором сформированной N-граммы и векторами слов онтологии не превышает порогового значения, то N-грамма рассматривается как понятие предметной области. Например, если биграмма « пресс-секретарь полиции » имеет близость выше пороговой, а униграмма «пресс-секретарь» — нет, то это значит, что в текстах предметной области понятие «пресс-секретарь» встречается реже, чем « пресс-секретарь полиции », и поэтому выделять отдельное понятие «пресс-секретарь» не нужно. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 23-30. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. © Ломов П. А., Никонорова М. Л., Шишаев М. Г., 2022 26

RkJQdWJsaXNoZXIy MTUzNzYz