XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.
частности, ответов в свободной форме, является достаточно трудоемкой, особенно, если анкетирование проведено на большом корпусе респондентов. В частности, на базе университета МАГУ функционирует научно-исследовательская лаборатория социологических исследований (НИЛСИ), которая проводит исследование на тему привлекательности Мурманской области. В одном из ответов этого анкетирования респондент должен написать, в чём он видит привлекательность Мурманской области, а перед лабораторией стоит задача определения количества ответов, которые можно отнести к определенным категориям факторов: климатическим, природным, социально-экономическим и т.п. Самым популярным подходом к анализу текстовой информации на сегодняшний день является Text Mining, или интеллектуальный анализ текста. Он представляет собой раздел Data Mining, в котором речь идёт об обработке неструктурированной текстовой информации, а также о получении новых знаний [Барсегян и др., 2003]. Text Mining состоит из нескольких этапов: поиск информации, предобработка текста, анализ данных и интерпретация полученных результатов [Барсегян и др., 2003]. Для решения поставленной задачи сотрудники НИЛСИ предоставили 625 ответов респондентов и 9 категорий, к которым необходимо отнести полученные данные. Необходимо отметить, что около 15 % ответов содержали информацию, относящуюся к разным категориям, поэтому для анализа использовалась совокупность из около 1000 ответов. Таким образом, необходимо было подобрать методы предобработки и автоматизировать процесс классификации ответовпо заранее известным группам. Предобработка текста Предобработка информации как нетривиальный этап сама состоит из нескольких подэтапов [Барсегян и др., 2003]. В данном случае были использованы следующие: 1. Удаление стоп-стоп - исключение из дальнейшей обработки неинформативных слов. 2. Стемминг - приведение всех слов к нормальной (начальной) форме. 3. Построение математической модели - представление текста в виде какого-либо математического объекта (матрица, числовое множество и др.). Необходимо ввести несколько определений, которые будут использованы в дальнейшем: a) текст - совокупность всех ответов респондентов; b ) документ - ответ отдельного респондента; c) лексема - слово или словосочетание, представляющее собой признак, по которому производится классификация. Однако, чтобы лучше понять, какие слова отнести к стоп-словам, как автоматически производить выбор лексем, необходимо сначала проанализировать ответы. Анализ ответов Сотрудники НИЛСИ хранят ответы респондентов в документе формата docx в виде таблицы, в которой одна ячейка - ответ одного респондента. Фрагмент ответов респондентов представлен в таблице 1. Таблица 1 ______________________________Фрагмент исходных данных Благополучный регион, замечательная зима, полярный день летом. И ещё Мурманская область граничит с Финляндией и Норвегией, что тоже мне очень нравится. более высокий доход, больше возможностей карьерного роста белые ночи, светит солнце, красивая природа, много озёр и грибов быстрый темп развития Информационные технологии и математические методы 87
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz