Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ) вып. 9/2019(10)

некоторую вероятность принадлежности к ней. В результате модель LDA представляется в виде произведения матрицы «документы-темы» на матрицу «темы-слова». Данные матрицы могут быть найдены при помощи сэмплирования Гиббса, то есть путем выбора сэмпла (выборки) из совместного распределения. Word2vec [4], в свою очередь, является развитием векторного представления слов. Был разработан группой исследователей Google в 2013 году. Суть заключается в установлении близости между словами на основе схожести их контекстов, то есть слова, встречающиеся в тексте рядом с одинаковыми словами, в векторном представлении будут иметь близкие координаты. Получаемые на выходе координатные представления векторов-слов позволяют вычислять «семантическое расстояние» между словами. Word2vec может быть однонаправленным, учитывающим контекст слева от слова, и двунаправленным, учитывающим контекст как слева, так и справа от слова. В качестве однонаправленного Word2vec можно привести реализацию InferSent [5] от компании Facebook. Он ориентирован на так называемый sentence embeddings, то есть это векторное представление не просто слов, а целых предложений в векторном пространстве. Он обучается на данных о естественном языке и хорошо обобщает множество различных задач. В рамках этого метода создается словарь векторов важных слов, который кодируется в массив этих векторов. Данный метод позволяет определить и визуализировать «важность» каждого слова в предложении. Примером реализации двунаправленного Word2vec является BERT [6]. Он представляет из себя подход к формированию языковой модели для решения задач обработки естественного языка, разработанный командой Google АІ в ноябре 2018 года. BERT реализует двунаправленную контекстно-зависимую обработку, то есть языковая модель учитывает в определении контекста конкретного слова то, что стоит в предложении перед ним и после него. Кроме того, BERT учит улавливать логические связи между предложениями (например, действительно ли второе предложение должно следовать за первым или оно случайное). 2. Описание предлагаемой технологии Разработанная в рамках исследования технология основана на применении дистрибутивного подхода к анализу естественно-языковых текстов для автоматизации пополнения тематического тезауруса. Технология позволяет извлекать из текстового корпуса определенной тематики новые лексические единицы или, иначе говоря, сущности, которые в дальнейшем могут быть использованы в качестве кандидатов для пополнения тезауруса. На данном этапе исследования было решено применить классический латентно-семантический анализ (в виде сравнения двух термов между собой) для выявления новых терминов с целью пополнения имеющегося тезауруса. Таким образом, при помощи JICA необходимо найти некоторые слова в корпусе текстов, близкие к тем, которые на данный момент имеются в тезаурусе. JICA предполагает формирование исходной матрицы термы-на- документы, где строки - это слова, столбцы - документы, а в ячейках содержатся веса, учитывающие частоту встречаемости слова в документе. На данной матрице, как правило, применяется SVD-разложение (разложение по 87

RkJQdWJsaXNoZXIy MTUzNzYz