Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 10/2018(9))

слов и конструкций. Для учета и хранение контекста понятий предметной области, учета различных форм передачи синтаксиса, а также на решение проблемы равнозначности слов направлено формирование на основе коллекции документов семантической модели предметной области (СМПО) в виде структуры взвешенных семантических отношений. СМПО позволяет реализовать процедуры извлечения и хранения множественного контекста употребленных в документах понятий, частично решая проблему совместимости новой информации с уже накопленными знаниями, а также выявить противоречия в семантических образах документов, в случае, если новая информация противоречит накопленной. Ниже приведена процедура формирования СМПО. На начальном этапе текст делится на предложения и подвергается грамматическому анализу и лемматизации. Для синтаксического анализа и определения морфологических характеристик слов используется грамматический словарь русского языка [5], тезаурус WordNet [ 6 ], а также библиотека определения синтаксических связей SyntaxNet, основанная на аппарате искусственных нейронных сетей Tensor-Flow [7].Особенностью такого подхода является возможность производить анализ морфологии и синтаксиса для слов, отсутствующих в тезаурусе. TensorFlow представляет собой библиотеку для машинного обучения и глубокого исследования нейронных сетей в рамках научно-исследовательской организации Machine Intelligence. Система масштабируема и может быть использована на множестве устройств. Основу библиотеки составляют графы потоков данных, библиотека функционирует на уровне задания архитектуры нейронной сети и ее параметров. Данные в TensorFlow представлены в виде многомерных массивов данных с переменным размером - тензоров. Вычисления представляются в виде направленного графа, пути, по которым эти данные перемещаются - это ребра графа. Тензоры переходят от узла к узлу по ребрам графа [7]. Множество морфологических признаков, определяемых SyntaxNet (374), грамматических категорий (49), и типов зависимостей (37) заданы в нотации Universal Dependency [ 8 ]. Для обработки предложений библиотекой SyntaxNet слова предложений преобразуются в вектор библиотекой Word2Vec [9]. Векторные представления слов позволяют рассчитать смысловую близость между словами. Поскольку алгоритмы Word2Vec основаны на обучении нейронной сети, для достижения эффективной работы необходимо использовать большой текстовый корпус для обучения. Для обучения Word2Vec использовались подготовленные векторы, полученные в наборе данных Google News [11]. Модель содержит векторы для 3 миллионов слов и фраз. Фразы были получены с использованием подхода skip-gram[10]. Далее предложения в векторной форме подаются на входной слой нейронной сети, реализованной на основе TensorFlow и обученной на корпусе Universal Dependences. Русскоязычная часть текстовые корпуса в Universal Dependences представлены корпусам SinTagRus [12] и Google Russian Treebank [13]. Результатом работы SyntaxNet является дерево зависимостей предложения и морфологические характеристики слов. Результатом анализа документа является взвешенный семантический образ документа. Семантический образ документа представляет собой семантическую сеть, набор понятий и набор ребер - отношений над понятиями. СМПО формируется в результате интеграции семантических образов документов. Структура сервиса семантического анализа представлена на рисунке. 103

RkJQdWJsaXNoZXIy MTUzNzYz