Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 10/2018(9))

3.1 Пример использования метода «Top 100 Words» Первым методом, для которого мы опишем пример использования для визуального экспресс-анализа содержимого документов, является метод «Top 100 Words». Этот метод, с одной стороны, обеспечивает быстрое создание визуального образа документа даже для относительно больших документов а, с другой стороны, хорошо подходит для оценки тематики анализируемого документа в целом. Фактически, этот метод визуализирует наиболее важные слова документа, которые можно считать ключевыми для описания его контента. Для вычисления значения важности или веса слова используется статистическая мера TF-IDF. В текущей реализации метода используется абсолютное значение важности слов. То есть при вычислении веса слова, объем документа не учитывается. Мы применили метод «Top 100 Words» к «Стратегии МО» и «Стратегии АЗРФ» независимо друг от друга. Фрагмент результатов работы метода представлен на рисунке 2. На рисунке показано только одиннадцать концептов (слов) с максимальным весом из каждого документа. «Стратегия МО» WORD TF-IDF 1 развитие 161 2 области 141 3 региона 126 4 Мурманской 120 5 государственной 93 6 населения 79 7 повышение 65 8 обеспечение 63 9 Российской 62 10 создание 48 11 системы 42 «Стратегия АЗРФ» WORD TF-IDF 1 Арктической 190 2 Российской 173 3 Федерации 161 4 развитие 90 5 обеспечение 79 6 зоны 68 7 государственной 61 8 системы 52 9 безопасности 33 10 деятельности 30 11 населения 26 Рисунок 2. Результаты анализа документов с помощью метода «Top 100 Words» (фрагмент) В зависимости от задачи анализа, пользователь может по-разному интерпретировать полученные результаты. Но, даже на первый взгляд, видно, что из множества слов с максимальным весом, более 50% слов совпадают в обоих документах. Это, в частности, может свидетельствовать о том, что эти документы имеют общую тематику и схожую терминологию. На основании этого вывода, можно говорить о том, что при проведении разбиения коллекции документов на несколько кластеров, эти документы с высокой вероятность могут попасть в один и тот же кластер, так как обладают некоторой общностью. 105