Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)
семантической сети с множественными связями. Для синтаксического и морфологического анализа использована основанная на машинном обучении библиотека SyntaxNet[9], включающая синтаксическую модель русского языка. Синтаксическую разметку составляют 44 отношения Universal Dependencies[10] (UD). UD разметка упорядоченно представляет межъязыковые соответствия и основаннана на существующих стандартах разметки. / ! п I NOUN* Г ' П Алгоритм может записан словами изображен схематически Рис. 1 Пример синтаксической разметки предложения. Рис. 2 Многоуровневый анализ текста Интеграция результатов синтаксического анализа осуществляется путем вычисления составной оценки семантической близости понятий на основе сходства понятий, смежных понятий, а также их морфологических и синтаксических свойств. Результатом интеграции является семантическая сеть в виде ориентированного взвешенного мультиграфа, вершинами которого являются лексемы, а бинарные отношения обозначают синтаксическую роль лексем. Определение парадигматических отношений основано на предположении о существовании связи лексико-семантического и синтаксического уровней языка при актуализации оценочных значений языковых единиц. Интерпретация оценочных предикатов как особых лексико-грамматических классов слов предложена в работах Г.А. Золотовой. Для определения морфологических и синтаксических характеристик, определяющих парадигматические отношения, было произведено построение взвешенной семантической сети, полученной на наборе аннотаций русскоязычных статей Википедии. Для определения и систематизации синтаксические, морфологические и статистические характеристики понятий мультиграфа, выражающих одно парадигматическое отношение, были сгруппированы. В качестве эталона парадигматических отношений общеупотребительной лексики использован тезаурус WordNet. Для приведения к 93
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz