XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.
И третий этап - это интерпретация полученных результатов. В рамках поставленной задачи необходимо ввести следующие определения: 1. Документ - это предложение (или несколько предложений), описывающее научную область, например, название публикации, которое необходимо отнести к одному из представленных классов. 2. Класс - это группа, представленная предложением, описывающим заданную тематику, в которую можно отнести документ. 3. Терм - это слово из предложения, которым задан класс. Предобработка текста Предобработка текста - это подготовка неструктурированных (непредназначенных для анализа) текстовых данных к извлечению интересующей информации и знаний [Барсегян и др., 2003]. Предобработку можно разбить на несколько этапов, это токенизация, удаление стоп- слов и стемминг. Под токенизацией подразумевается процесс разбиения предложений на отдельные слова, токены, который может быть сопряжён с анализом, например, принадлежности слова к определённой части речи, что может быть использовано в последующих этапах [Tokenization ... ,2017]. Удаление стоп-слов - это удаление слов, не обладающих смысловой нагрузкой или не представляющих интереса в определённой задаче. Стемминг - это приведение слов к нормальной (начальной) форме, для того чтобы нивелировать различие форм одного слова. Стемминг текста в предлагаемом решении был реализован с помощью утилиты MyStem, доступной на сервисе «технологии Яндекса» [MyStem ... , 2017]. Использование данной утилиты позволило решить не только задачу нормализации слов, но и эффективно подойти к удалению стоп-слов. Так как MyStem является не просто стеммером, а анализатором, то он способен выводить лексический анализ введённого слова - его род, падеж, число, часть речи и так далее. В решаемой задаче можно воспользоваться определением части речи. Именно с помощью возможности вывода части речи и реализовано удаление неинформативных слов. На практике оказалось, что информативными для решаемой задачи являются определённые группы слов - те что могут охарактеризовать научную тематику классифицируемого документа или секции, по которой ведётся классификация, например, слова «математика» или «разработка». Соответственно легко можно вывести те части речи, которые и будут являться информативными - это существительное, прилагательное и глагол. Глагол в данном случае добавлен несколько условно, так как встречаемость глаголов в тестовых примерах практически нулевая (потому что действие в темах обычно выражается существительным, например, «разработка», «вычисление»), однако при наличии глагола, он будет скорее информативным словом. Таким образом, этап удаления стоп-слов, как таковой, оказался реализован после стемминга, ввиду того, что он основывается на анализе части речи в процессе стемминга. После прохождения стемминга каждое слово проходит проверку на часть речи, и если оно не является прилагательным, существительным или глаголом, то оно удаляется. Математическая модель текста В качестве численного представления анализируемых текстовых данных была использована модель векторного пространства (vector space model или term vector model) [Vector ... , 2017] - это алгебраическая модель для представления текстовых документов в виде векторов, элементами которых являются весовые характеристики вхождения определенного слова в определенный документ (см. табл. 1). Информационные технологии и математические методы 7 9
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz