Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)

(UD). UD разметка упорядоченно представляет межъязыковые соответствия и основана на существующих стандартах разметки Определение парадигматических отношений основано на предположении о существовании связи лексико-семантического и синтаксического уровней языка при актуализации оценочных значений языковых единиц. Интерпретация оценочных предикатов как особых лексико-грамматических классов слов предложена в работе [6]. Для определения морфологических и синтаксических характеристик, определяющих синтагматические и парадигматические отношения, было произведено построение взвешенной семантической сети, полученной на наборе аннотаций русскоязычных статей Википедии. Для определения и систематизации синтаксические, морфологические и статистические характеристики понятий мультиграфа, выражающих одно парадигматическое отношение, были сгруппированы. В качестве эталона парадигматических отношений общеупотребительной лексики использован тезаурус WordNet. Для приведения к формату списка двуместных отношений синонимичные ряды тезауруса были разложены на множества двуместных отношений. Парадигматические отношения тезауруса над синонимичными рядами при этом были установлены между каждой парой слов из различных синонимичных рядов. Далее получено пересечение множеств слов присутствующих в тезаурусе и семантической сети, а также двуместные отношения между словами. В результате было получено 2534 бинарных отношений, в ходе анализа которых было отмечено превалирование определенных групп синтаксических отношений текста википедии для некоторых парадигматических отношений тезауруса. Гипонимы в 39% выполняют синтаксическую роль «conjunct» и в 51% случаев роль «nominal modifier». Гиперонимам в 68% случаев соответствует синтаксическая роль «conjunct» и в 26% «nominal modifier». Для разделения гипонимов и гиперонимов учитывается направление двуместного отношения. Отличить парадигматические отношения в рамках одной синтаксической роли предложено также за счет учета определеннойWord2Vec контекстной близости. Также различные синтаксические роли имеют различные связи с другими вершинами семантической сети, в частности применимы с различными предлогами и пунктуацией. Пример антонимов («автомобиль, а не самолет», «автомобиль и другие транспортные средства»). Учитываются и морфологические свойства слов, определенные SyntaxNet. Были получены классы объектов, связанные одним и тем же отношением и определено множество схожих морфологических признаков. В результате применения алгоритма, основанного на рассматриваемой эвристике, 1697 прагматических отношений были правильно отмечены в отношении тезауруса WordNet, что составляет 67% от общего числа случаев. Полученные результаты указывают на перспективы подхода, используемого для выявления парадигматических отношений в текстах на естественном языке. В то же время точность эвристического алгоритма может быть увеличена, как за счет использования улучшенных процедур идентификации, так и за счет расширения пространства признаков. Далее был построен классификатор отношений тезаурусаWordNet, на основе нейронной сети. Набор признаков, характеризующих экземпляры для распознавания, состоит из морфологических признаков главного и зависимого слов, соответствующих этим словам 300-мерных векторов Word2Vec, семантического (косинусного) расстояния между ними, типа соединяющего их UD-отношения и 190

RkJQdWJsaXNoZXIy MTUzNzYz