Труды КНЦ (Технические науки) 2/2022(13).
Пороговое значение вычисляется для каждого предложения отдельно как среднее значение близости всех сформированных на его основе N-грамм к понятиям онтологии. Таким образом, на данном шаге определяются возможные связанные между собой понятия, представленные словами внутри одной именной группы. 4. Если в предложении обнаруживается более одной N-граммы, определенной на предыдущем шаге как понятие предметной области, то предполагается, что между каждой их парой существует отношение. При этом, если N-граммы не накладываются друг на друга и связаны в синтаксическом дереве через другие слова предложения, то упорядоченный по порядку следования в предложении набор промежуточных слов рассматривается как некоторый контекст предполагаемого отношения, указывающий на его смысл. 5. К набору отношений, полученных на основе одного предложения, применяются следующие корректирующие процедуры: • Если два отношения имеют в качестве одного понятия N-грамму, в которой главным словом является одинаковый глагол, то они объединяются в одно отношение по этому понятию. N -грамма с глаголом переходит в контекст данного отношения. Например, отношения (компания «Роснефть», купила, context:{}) и (В 2011, купила, context:{}) будут объединены в одно отношение с новым контекстом (компания «Роснефть», В 2011, context:{купила }). • Если отношение включает N-граммы, в которых главным словом является одинаковое существительное, то данное отношение интерпретируется как таксономическое (is-kind-of). При этом предполагаемым родителем назначается N-грамма с меньшим количеством слов. Например, (нефтяная компания, компания, context:{is_kind_of, parent: компания, child: нефтяная компания}). Таким образом, в результате применения такой процедуры формируется набор отношений в виде пары N-грамм и иногда его контекста. Далее полученный набор представляется разработчику онтологии для принятия окончательного решения о добавлении обнаруженных отношений в онтологию. Оценка эффективности процедуры извлечения отношений Для оценки эффективности предлагаемой процедуры извлечения отношений было проведено два эксперимента, для которых были вручную сформированы два тестовых набора, содержащих предложения и эталонные результаты извлечения из них отношений. Первый набор использовался для оценки извлечения отношений произвольного типа. Он включает в себя 500 образцов, где образец представляет собой пару (предложение, отношение). Второй тестовый набор был сформирован для оценки извлечения только таксономических отношений (is-kind-of), поскольку они имеют особую важность в контексте обучения онтологий — позволяют построить иерархию понятий предметной области. Его размер составил 75 тыс. образцов, аналогичных по структуре первому тестовому набору. Таким образом, результаты работы процедуры сравнивались с эталонными результатами тестовых наборов и вычислялись оценки полноты и точности. Были получены следующие результаты. Эксперимент 1. Оценка извлечения отношений произвольного типа из предложений первого тестового набора: точность = 0,016; полнота = 0,052. Эксперимент 2. Оценка извлечения таксономических отношений из предложений второго тестового набора: точность = 0,128; полнота = 0,207. Низкие оценки точности, полученные в результате первого эксперимента, говорят о наличии в результирующем наборе большого количества нерелевантных тематике онтологии понятий в извлеченных отношениях. Это вызвано тем, что используемая для их фильтрации на следующем шаге Word2Vec-модель пропускает значительное количество N-грамм, не являющихся понятиями предметной области. Повышение ее результативности, вероятно, требует более тонкой настройки ее метапараметров при обучении. В первую очередь к таковым относится размер словаря, который определяет минимальное количество обнаружений некоторой N-граммы в рассматриваемых текстах для того, чтобы она учитывалась моделью. То есть, если N-грамма отсутствует в словаре, то ее близость к исходным понятиям онтологии не оценивается и она не попадает в формируемые отношения. Таким образом, увеличение значения данного метапараметра может способствовать сокращению количества не относящихся к тематике онтологии N-грамм и, соответственно, содержащих их отношений. Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 23-30. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 23-30. © Ломов П. А., Никонорова М. Л., Шишаев М. Г., 2022 27
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz