Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 10/2018(9))

Результаты анализа документов с использованием метода «Top 100 Words» могут быть использованы для повышения эффективности задач поиска документов на этапе анализа результатов поиска. Чтобы повысить эффективность анализа результатов поиска, каждый документ должен быть дополнен визуальным образом документа. В этом случае визуальный образ документа представляет собой список основных концептов (понятий) документа. Список понятий упорядочивается по значению весов понятий. Однако для решения задач выявления потенциальных противоречий в документах метод «Top 100 Words» не подходит, поскольку он не предоставляет никакой дополнительной информации о документе. Данный метод имеет и некоторые недостатки. На самом деле, метод «Top 100 Words» позволяет настраивать количество концептов, которые выводятся на экран. При этом возникает вопрос о том, какое количество концептов является оптимальным. С одной стороны, количество концептов должно быть достаточным для решения задачи пользователя, но с другой стороны, количество концептов не должно быть слишком большим. Если выводить на экран слишком много концептов, то сложность задачи визуального анализа этих концептов может приближаться к сложности задачи анализа исходного документа. В этом случае, применение метода «Top 100 Words» для визуального экспресс контент- анализа документа теряет смысл. Если руководствоваться особенностями восприятия визуальной информации человеком, в частности «магическим числом Миллера» [14], и выводить на экран от 5 до 9 концептов с максимальным весом, то в случае больших документов существует высокая вероятность того, что результаты визуального анализа малого количества концептов будут бесполезны для пользователя. На данный момент у нас нет однозначного ответа на вопрос о том, какое количество концептов является оптимальным для визуального экспресс контент- анализа документа. Решение данного вопроса запланировано нами в будущей работе. 3.2. Пример использования метода «Semantic Network» Вторым методом, для которого мы опишем пример использования для визуального экспресс-анализа содержимого документов, является метод «Semantic Network». Результатом визуализации в этом случае является семантическая сеть документа. Эта семантическая сеть не является статическим визуальным образом документа. Пользователь может взаимодействовать с ним в интерактивном режиме: разворачивать сетевые узлы, исследовать связи между основными концептами документа, визуализировать семантическую сеть документа, начиная с определенного пользователем концепта, ограничивать количество отображаемых концептов, изменять параметры отображения семантической сети и т.д. Для демонстрации возможностей метода «Semantic Network», мы визуализировали семантические модели документов «Стратегия МО» и «Стратегия АЗРФ». Точкой входа для визуализации семантических сетей и для первого и для второго документа был выбран концепт «развитие». Мы выбрали этот концепт в качестве точки входа визуализации по двум причинам. Во-первых, 106

RkJQdWJsaXNoZXIy MTUzNzYz