Труды КНЦ вып. 11 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 8/2020 (11)
использования большего контекста, а также одновременного обучения статистической модели языка и векторной модели слов лексикона (word features). Успешный опыт построения векторных представлений языковых единиц открыл возможность для более широкого использования нейросетей при анализе текста, поскольку векторные представления слов, с одной стороны - очень удобный формат входной информации для ИНС, осуществляющих более глубокое моделирование текста, а с другой - содержат в себе информацию о семантике языковой единицы (в соответствии с дистрибутивной гипотезой). Основной сдерживающий фактор, обусловливающий высокую вычислительную сложность нейросетевых моделей, использующих векторные представления языковых единиц - высокая размерность и разреженность векторного пространства. Одним из способов решить эту проблему является алгоритм SGNS (skip-gram with negative sampling), обеспечивающий формирование плотного векторного представления слов с помощью обученного нейросетевого классификатора. Алгоритм является частью популярного пакета Word2Vec [11] и широко используется в различных задачах анализа ЕЯ-текстов. Пример применения Word2Vec-модели для русского языка - проект RusVectores [12]. Альтернативной Word2Vec моделью, объединяющей подходы к формированию векторных представлений слов на базе контекстного окна и матричных разложений, является GloVe [13]. Совмещение двух («предсказательного», как в Word2Vec и «вычислительного», как в LSA) подходов к обучению модели позволило, с одной стороны, более точно отразить дистрибутивную семантику слов за счет учета глобальной статистики попарной встречаемости слов и обеспечить более высокую в сравнении с другими моделями производительность GloVe на задачах выявления аналогий между словами, выявления схожих слов, распознавания именованных сущностей. Таким образом, ИНС обеспечивают эффективное решение задачи векторного представления слов и статистического моделирования на их основе естественно языковых текстов. Однако, у векторного представления есть и ограничения: - Если в аналитических языках, типа английского, смысл слова зависит от контекста (в пределах самого слова нет указаний на грамматический класс) и это хорошо рефлексируется векторной моделью, то в языках с богатой морфологией, в частности - русском, слово само по себе, в зависимости от формы, может содержать много дополнительной информации (род, падеж) вне зависимости от синтаксической конструкции, в которой фигурирует [14]. Такая информация упускается при векторном представлении. - Проблема размерности, несмотря на появление способов получения «плотных» векторных представлений, не решена кардинально и остается актуальной для языков с объемным лексиконом, препятствуя формированию адекватных практическим задачам векторных представлений всех возможных слов. Кроме того, большинство языков - динамичны и постоянно пополняются новыми словами - неологизмами, заимствованиями и т.д. Общего решения этих проблем не существует, применимые на практике подходы зависят от конкретного языка. Для этого используют непосредственно последовательности символов вместо векторов, дополняют векторы компонентами, характеризующими фонетику слов и другие подходы. Например, 95
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz