XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.
3. Разбить документы на более мелкие таким образом, чтобы выполнялось равенство документ = лексема. 4. Построить математическую модель текста, в виде модели Bag of words с мерой tf*idf для каждого документа. Классификация предобработанных данных Методов классификации довольно много, однако не все применимы для поставленной задачи. База ответов относительно невелика, поэтому необходимо было выбрать такие методы, которые были бы наиболее терпимыми к небольшой обучающей выборке. В данной работе были рассмотрены следующие методы [Барсегян и др., 2003]: 1. Наивный байесовский классификатор (MultinominalNB); 2. Метод k-ближайших соседей (KneighborsClassifier); 3. Метод опорных векторов (LinearSVC). Для программного решения задачи классификации можно воспользоваться аналитическими платформами, либо библиотеками универсальных языков программирования. Готовые решения анализа текстовых данных предоставляются на коммерческой основе, к таким, например, относятся Intelligent Miner for Text, Text Miner, InterMedia Text, Oracle Text и т.д. [Кутукова, 2016]. Поэтому было принято решение воспользоваться программными средствами, предоставляющими инструментарий для реализации алгоритмов классификации, которые предоставляются бесплатно. Одной из таких является библиотека SciKit-Leam написанная на языке Python [Введение ... ,2017], которая и была использована в данной работе. Для того, чтобы обучить классификатор необходимо имеющиеся данные разметить по классам и разделить на обучающую и тестовую выборки. Результаты разделения представлены в таблице 2. Далее был проведен эксперимент, позволивший определить наилучший подход к предобработке текстовых данных и методам классификации. Для оценки классификаторов были использованы метрики: точность (precision), полнота (recall) и F-мера (F-score) [Оценка... , 2017]. Для их использования необходимо иметь сведения о количестве документов, принадлежащих классу, а также документах, которые были отнесены классификатором к этому классу. Информационные технологии и математические методы Таблица 2 Общие сведения о разбиении документов на тестовую и обучающую выборки Класс Количество документов Тестовая выборка Обучающая выборка Природные факторы (ПФ) 20 345 Социально-экономические (СЭ) 11 78 Социатьно-психологические (СП) 8 75 Материальные (М) 13 150 Инфраструктурные (И) 14 119 Социальные (С) 11 77 Во всем 1 6 Ни в чем 2 29 Затрудняюсь ответить (Затрудняюсь) 1 7 Таблица 3 содержит результаты проведения экспериментов с использованием математической модели представления текста Bag-of-words и метрики взвешивания tf-idf. 8 9
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz