Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)
в работе [15] векторная модель обучается не только на элементах лексикона, но и на так называемых «под-словах», представляющих собой фрагменты исходного. За счет этого удается строить эффективные векторные представления слов в языках с богатой морфологией. Дистрибутивный подход к описанию семантики текста применяется и по отношению к более крупным, нежели отдельные слова, объектам - параграфам и даже документам. Так, в работе [16] рассматривается схожая с Word2Vec технология формирования векторного представления текста произвольной длины - от отдельного предложения до документа в целом. Авторы дополнили вектор признаков (в Word2Vec это - «окно» из векторов нескольких соседних по тексту слов) компонентом, характеризующим некоторый блок текста (параграф) целиком. За счет этого удалось получить лучшую в сравнении с аналогами точность работы алгоритма в задачах определения тональности и классификации текстов. Основанные на данном подходе нейросетевые модели получили название Paragraph2Vec и Doc2Vec. Грамматические модели Наряду с построением статистических моделей ЕЯ-текстов, ИНС находят широкое применение для реализации грамматических моделей. К данной категории можно отнести такие задачи, как моделирование синтаксической структуры предложения (построение синтаксических деревьев), определение частей речи, поверхностный анализ для выявления базовых лексических структур, например, именных групп (shallow parsing, chunking), определение семантических ролей слов. Основные успехи в этой области связаны с применением глубоких нейронных сетей. Пионерской в этом направлении считается работа [17], где предлагается универсальная модель на основе глубоких нейронных сетей, обеспечивающая решение сразу нескольких задач анализа текста, в «традиционном» случае решаемых отдельно - часте-речевой разметки (part-of- speech tagging), выделения именованных сущностей, определения семантических ролей, выделения семантически схожих слов и оценки осмысленности текста. Такая универсальность обеспечивается за счет применения мультизадачного обучения (multi-task learning), идея которого заключается в учете при обучении модели признаков, значимых в контексте сразу нескольких прикладных задач [18]. Опыт успешного применения мультизадачного обучения для решения различных задач показывает, что за счет этого удается улучшить генерализующие способности модели [19]. Это можно расценивать как еще одно подтверждение тезиса о целесообразности расширения спектра признаков для улучшения точности нейросетевой модели. Примером инструмента для эффективного решения задачи построения дерева синтаксического разбора является нейросетевой фреймворк Syntaxnet от компании Google, обеспечивающий синтаксический разбор (в виде дерева зависимостей) и часте-речевую разметку слов в предложении. Используемые в текущей версии Syntaxnet модели являются символьными (анализируются не слова, а последовательности символов, разделенные пробелами и знаками препинания), что обеспечивает эффективность технологии в том числе и для анализа морфологически богатых языков, в частности - русского [20]. Фреймворк основан на рекуррентной сети с адаптивной архитектурой, обеспечивающей 96
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz