Труды КНЦ вып.8 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 3/2017(8))
Для анализа синтаксической роли и морфологических характеристик слов используется нейронная сеть, реализованная библиотекой машинного обучения Tensorwlow. На вход нейронной сети подаются предложения, слова которого преобразованы в векторную форму библиотекой \Vord2Vcc1. На этапе предва рительного обучения в качестве входных данных Word2Vec принимает текстовый корпус и выдает словарные векторы в качестве вывода. В Word2Vec реализованы два основных алгоритма обучения: Continuous Bag ofWords (CBOW) [10] и skip-gram[ll], CBOW определяет вероятность присутствия слова при данном контексте, a skip-gram определяет вероятность контекста при заданном слове. Оба алгоритма определяют вероятность совместного употребления слова и его контекста и реализованы на основе модели нейронной сети прямого распространения. Получаемые на выходе координатные представления векторов-слов позволяют вычислять семантическую близость между словами. Так как алгоритмы Word2Vec основаны на обучении нейронной сети, чтобы добиться эффективной работы, необходимо использовать большие корпусы для обучения. Доступны предварительно подготовленные векторы, полученные на части набора данных Google News2 (около 100 миллиардов слов). Модель содержит 300-мерные векторы для 3 миллионов слов и фраз. Фразы были получены с использованием подхода skip-gram, описанного в [11]. Далее предложения в векторном формате подаются на входной слой шестислойной нейросети, реализованной в TensorFlow и обученной на корпусе текстов Universal Dependencies. Русские корпуса в проекте представлены конвертированными СинТагРус3 и Google Russian Treebank4. Результатом является дерево зависимостей между словами предложения и морфологические харак теристики слов. 2. Интеграция семантических образов в СМПО на основе модифициро ванной семантической метрики осуществляется следующим образом: a) вычисление оценки сходства концептов документа и СМПО на основе функции оценки сходства имен концептов и множества грамматических признаков слова; b ) вычисление оценки сходства контекста и структурного положения концептов документа с контекстом СМПО как количества общих связанных концептов различных типов; c) добавление концептов на основании результатов вычисления пороговой функции от среднего оценок. Уточнение СМПО осуществляется заданием взвешенных ассоциативных отношений между понятиями. Данный процесс инициируется при совместном употреблении двух понятий в одном предложении. Предложенный подход предлагается использовать для автоматизированного формирования и обеспечения актуального состояния семантической модели предметной области динамичной коллекции документов, условиях динамики предметной области. 1 https://code.google.eom/archive/p/word2vec/ 2https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing 3http://www.ruscorpora.ru/search-syntax.html 4https://old.datahub.io/dataset/universal-dependencies-treebank-russian 113
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz