Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)

Самыми простыми методами векторизации слов являются мешок слов, представление TF-IDF слов документа и матрица смежности (встречаемости) пары слов в документах. Метод «горячего» кодирования (one-hot encoding) [1] - один из самых простых способов численного представления слов. Иначе этот метод еще называют «мешок слов» (bag-of-words). Создается вектор, который имеет столько измерений, сколько корпус содержит уникальные слова. Каждому уникальному слову присваивается значение, равное количеству его встречаемости в данном документе. На выходе получаются огромные и редкие векторы, которые не собирают абсолютно никакой реляционной информации. Данный способ применяется, когда нет других вариантов векторного представления слов. TF-IDF векторы (Term Frequency - Inverse Document Frequency) [1] показывают вес слова, который пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. Проще говоря, это метод, который увеличивает веса слов, часто встречающихся в данном документе, и уменьшает веса слов, часто встречающихся во многих документах. Матрица смежности (co-occurrence matrix) [1] представляет собой гигантскую матрицу, размер которой соизмерим с размером словаря. Она описывает то, как слова встречаются вместе, что, в свою очередь, фиксирует отношения между ними. Матрица смежности слов вычисляется просто путем подсчета того, как два или более слова встречаются вместе в данном корпусе. Недостатком данного метода является достаточно большое векторное представление слова, что составляет в объеме как размерность при методе горячего кодирования, только в квадрате. В итоге требуется слишком много памяти для хранения полученных результатов. Более сложным методом считается латентно-семантический анализ (ЛСА) [2] - один из самых распространенных методов анализа текстовой информации. Он используется для выявления латентных (скрытых) ассоциативно-семантических связей между термами (словами, н-граммами) путем сокращения факторного пространства термы-на-документы. «Семантическое» пространство формируется на основе алгоритма, и семантика базируется как раз на встречаемости в контексте (дистрибутивная семантика). В области информационного поиска данный подход называют также латентно­ семантическим индексированием (ЛСИ). ЛСА отображает документы и отдельные слова в пространство термы-на- документы, что позволяет представлять их в виде векторов и тем самым решать такие задачи, как, например, сравнение двух термов между собой, сравнение двух документов между собой, сравнение терма и документа и сокращение факторного пространства термы-на-документы для последующей визуализации. Тематическое моделирование [3] является развитием латентно­ семантического анализа, но оно применяется для более узкой задачи определения принадлежности документа к теме. Наиболее предпочтительным алгоритмом его реализации считается латентное размещение Дирихле (LDA), так как в результате его применения получается более корректный набор тематик в связи с уходом от нормального распределения. Основное предположение LDA состоит в том, что каждый документ с некоторой вероятностью может принадлежать множеству тем. Тема в данном контексте - это совокупность слов, где каждое слово имеет 86

RkJQdWJsaXNoZXIy MTUzNzYz