XVI международная научная конференция студентов и аспирантов «Проблемы арктического региона», Мурманск, 16 мая 2017 года : труды конференции / [ред.: Черняков С. М., Шаповалова Ю. А.]. - Мурманск : Полиграфист, 2017. - 212 с.
Вес соседей так же был определен на основании семантической близости к анализируемому документу. В результате в определении принадлежности к определенному классу участвовали наиболее близко находящиеся соседи. Определение параметра к для метода к-ближайших соседей было выполнено экспериментально на нескольких тестовых выборках. Было принято решение провести тестовую работу с разным количеством соседей на разных тестовых данных и просчитать процент ошибки, т.е. процент несовпадения результатов автоматизированной классификации с исходной ручной классификацией. На рис. 1 представлен процент правильно распределённых документов из пяти разных наборов данных для разного количества ближайших соседей, начиная от трёх и заканчивая максимально возможным числом соседей для данного набора, т.е. количеством всех термов данного набора. 90% Информационные технологии и математические методы £ 80% I:QJс; ^ 70% CD О. С о со ГО О 60% а. ь _ X О QJ £ § 50% § 5 с 40% ЬIOJ О 30% а. CZ 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Количество учитываемых общих соседей (от трёх до макс. возможного числа) Рис. 1. Колебание процента «правильно» распределённых докладов Методом подбора, основываясь на данном тесте, было выявлено, что наиболее подходящим количеством соседей является число, определяемое как четвёртая часть общего количества термов. Притом, что подсчёт четверти с округлением дробной части, а не отбрасыванием, дал лучший результат. В процессе решения поставленной задачи было разработано программное средство для классификации коротких текстовых документов длиной в одно-два предложения по секциям, которые представлены такими же короткими текстами. Были применены несколько сторонних решений, в том числе и обученная модель word2vec, которая и позволила достигнуть решения ключевой проблемы, не позволяющей проводить классификацию традиционными способами - проблему коротких текстов. Применение сторонней утилиты для стемминга позволило реализовать на его основе так же и удаление стоп слов без сбора и тестирования словаря подобных слов, а сразу ограничив слова, не обладающие смысловой нагрузкой по их части речи. Приложение выполнено в виде одного окна с несколькими страницами, с предельно простым и не загромождённым интерфейсом, что позволяет быстро освоить его работу. Существуют большие возможности для дальнейшей модернизации приложения, как с точки зрения удобства использования, так и с точки зрения функциональности. 81
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz