XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.
Проблемы Арктического региона Таблица 1 Модель векторного пространства документов _____________ Терм 1 Терм_2 Терм_3 ... TepM_i ... Термп Документ_1 Вес_1_1 Вес_1_2 Вес_1_3 ... B e c l i ... B e c l n Документ 2 Вес 2 1 Вес_2_2 Вес_2_3 ... Bec_2_i ... Bec_2_n Документ 3 Вес_3_1 Вес_3_2 Вес_3_3 ... Bec_3_i ... Bec_3_n ; : ; \ : i Документу B e c j l BecJ_2 B c c j J ... B e c j i ... Bec_j_n : i ; : \ : Документ_т Вес m l Bec_m_2 Bec_m_3 Bec_m_i ... B e c m n Элементы первого столбца - это классифицируемые документы, элементы первой строки - это термы из предложений, которыми заданы классы, по которым производится классификация, а в ячейках - веса, значения которых определяются семантической близостью документов к термам. Проведенный анализ позволил сделать вывод, что документы, с которыми ведётся работа - короткие, прямых совпадений слов в них почти нет, из-за чего использование более традиционных векторных моделей, например, с использованием частотных весов, не дает положительного результата. Подходящим решением оказалось использование уже обученной модели word2vec, по которой можно вычислить семантическую близость двух слов. Word2vec модель представляет собой список слов и их векторов, причём чем ближе по смыслу слова, тем ближе они друг к другу с точки зрения векторного расстояния [Demystifying Word2Vec, 2017]. Анализ текста Этап непосредственного анализа включает в себя классификацию документов. Классификация выполняется методом k-ближайших соседей (взвешенных ближайших соседей). Основная идея метода к-ближайших соседей заключается в том, что принадлежность к классу рассматриваемого элемента вычисляется на основе ближайших к нему элементов, «соседей», которые уже принадлежат к какому-то классу. То есть входом всегда будет являться к ближайших элементов обучающей выборки, а выходом, в случае классификации, вывод о членстве в классе. Причём число к является целым положительным числом, которое может быть равно и единице, в этом случае используется частный случай метода k-ближайших соседей, метод ближайшего соседа. Однако чаще число к больше единицы, хотя редко бывает слишком большим [Метод..., 2017]. Данный метод считается одним из самых простых методов классификации в машинном обучении, что, однако, вовсе не означает, что он показывает низкокачественные результаты, по сравнению с другими. Несмотря на то, что в названии метода есть слово «ближайший», для его применения вовсе не обязательно, чтобы между объектами было физическое расстояние как мера. Это вполне может быть какая-либо функция расстояния, вполне даже абстрактная. Варьируемыми параметрами в данном случае являются функция расстояния, количество рассматриваемых соседей и вес соседей. В качестве функции расстояния используем семантическую близость. Вычисление семантической близости документа с термом производится следующим образом: сначала вычисляется семантическая близость каждого словоэлемента из документа с данным термом, в результате чего получается массив дробных чисел от 0 до 1. После чего вычисляется среднее значение этих чисел, что и считается семантической близостью документа к терму. 80
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz