XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.

Таблица 3 ________________ Сравнительная таблица оценок классификаторов__________ ______ Проблемы Арктического региона Классификатор Precision-Macro (точность) Recall-Macro (полнота) F-Macro (F-мера) MuItinominalNB 0,913 0,858 0,879 LinearSVC 0,88 0,842 0,859 KneighborsClassifier 0,76 0,64 0,69 В качестве метода классификации для решения поставленной задачи, был выбран наивный байесовский классификатор (MuItinominalNB), поскольку он показал лучшую оценку точности 0,913 и сравнительно хорошую оценку полноты 0,858. В рамках данного исследования было написано приложение, позволяющее сотруднику НИЛСИ загрузить файл с ответами респондента и получить текстовый файл в виде: номер лексемы, лексема, мера tPidf. Далее необходимо перейти к классификации полученных результатов. Для простоты переобучения, а также для прозрачности работы классификатора, выбранный алгоритм был реализован в табличном процессоре MS Excel. Это позволило отслеживать, какие документы были классифицированы в тот или иной класс, что привело к этому результату, а также вручную настраивать и улучшать качество классификации. Таким образом, был получен инструмент для исследования качества классификации коротких текстов при условии малой выборки. Поскольку классификатор все же допускает ошибки в классификации, данное решение позволило проследить неверные решения. Литература Барсегян А.А. Анализ данных и процессов [Текст] / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. - М.: БХВ - Петербург, 2003. - 513 с. Введение в машинное обучение с помощью Scikit-Learn [Электронный ресурс] - Режим доступа: https://habrahabr.ru/companv/mlclass/blog/247751/, свободный (Дата обращения 05.03.2017). Кутукова Е.С. Технология Text Mining [Электронный ресурс] - Режим доступа: http :// www.swor 1d. com .ua/ simpoz3/3 .pdf, свободный (Дата обращения: 15.12.2016). Математические модели текста [Электронный ресурс] Режим доступа: http://lab314.brsu.by/kmp-lite/kmp2/JOB/CModel/BoW-Q.htm. свободный (Дата обращения: 07.06.17). Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс] - Режим доступа: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. свободный (Дата обращения: 16.05.2017). Bag of words vs vector space model? [Электронный ресурс] Режим доступа: https://stats.stackexchange.com/questions/31060/bag-of-words-vs-vector-space-model. свободный (Дата обращения: 07.06.17). COMPUTER PROCESSING OF THE RESULTS OF THE QUESTIONNAIRES IN A FREE FORM, DESCRIBING THE APPEAL OF THE MURMANSK REGION Y. V Shershneva, A. V Pritulyak, I.M. Lazareva Murmansk Arctic State University, Murmansk, Russia lasareva. irina(a),mshu. edu. ru Abstract. This article describes solution to topical at the moment tasks of automation of analysis of the free-form responses to the questions of the sociological questionnaire. Defines 90

RkJQdWJsaXNoZXIy MTUzNzYz