XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.

Проблемы Арктического региона в туризме и сотрудничеством с соседними странами Скандинавии я просто люблю свой край В добрых людях В процессе анализа ответов были выявлены следующие группы: Первая группа в качестве ответа пишет одно словосочетание. В данном случае весь ответ, после удаления возможных стоп-слов, и будет являться лексемой. Такой тип ответа обозначим lj , где j = 1,2, Вторая группа в качестве ответа пишет несколько словосочетаний. В данном случае в качестве лексем обозначим те слова, которые находятся между знаками препинания. Такой тип ответа представим {С^С* ,С^12С1 , С™£т С™}, где т = 2,3, Сд, С„ - стоп-слова (могут отсутствовать). Третья группа в качестве ответа пишет полноценный текст, состоящий из нескольких предложений. Данный случай является наиболее сложным для выделения лексем. Такой тип ответа представим {С^1г С„. С^12С ...,Сл^С„}, где s — 2 , 3 Сд, С„ - стоп-слова (могут отсутствовать). Таким образом, весь анализируемый текст представляется п документами, п = к + p + q. В качестве стоп-слов принимаются как стандартные (местоимения, частицы, предлоги, союзы и т.д.), так и те, которые не являются информативными в данном анализе, например: нравится, люблю, я, Мурманск и т.п. После удаления стоп-слов, выделения лексем и стемминга, необходимо построить математическую модель текста. Построение математической модели Выбор был между двумя моделями - Bag of words и VSM [Математические модели ... , 2017]. К сожалению, в русскоязычных источниках информации нет четкого различия между этими двумя моделями. В обоих случаях используются вектора, также могут быть использованы одинаковые характеристики вхождения отдельных слов в анализируемые тексты - веса. Однако, благодаря зарубежным источникам, было выяснено, что VSM строит модель для всего текста и более пригодна для кластеризации текста, в то время как Bag of words строит модель для каждого документа и более пригодна для классификации и обучения классификатора. Иначе говоря, VSM строится из векторов документов, которые построены с помощью модели Bag of words [Bag..., 2017]. В основе построения математической модели происходит сопоставление каждому слову из лексемы определенного веса. Существует три различных веса: бинарный, частотный и мера tr*idf [Математические модели ... , 2017]. По бинарным весам (1 или 0) можно сказать только то, встречалось ли слово в документе или нет, и соответственно какой-либо класс здесь выделить нельзя. Частотные веса (частота присутствия слова в тексте) смогут дать только классификацию по признаку наиболее частых ответов, даваемых респондентами. Индекс tf* id f- произведение частоты термина на обратную частоту документа. В качестве веса была выбрана мера tf*idf, позволяющая дать более уникальную характеристику слову, нежели бинарный вес или частотный. Алгоритм предобработки Естественным шагом является выявление последовательности действий, позволяющей оптимально выполнить поставленную задачу предобработки. Алгоритм получился следующий: 1. Удалить стоп-слова, используя заранее созданный словарь стоп-слов. 2. Произвести стемминг, с помощью утилиты MyStem, представленной на сервисе технологий Яндекса. 88

RkJQdWJsaXNoZXIy MTUzNzYz