Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 10/2018(9))

другу. Методика быстрого распознавания смыслов поможет выявить такие потенциальные конфликты в случае большого количества или большого объема исходных документов. Согласно первоначальному предположению, главная задача визуализации в этом случае - отразить сходство терминов, используемых в рассматриваемых документах, а также силу отношений между терминами. 3. Разделение набора документов на группы по смыслу. Хотя обычной практикой является априорное распределение похожих документов в разные папки, во многих случаях папка может содержать огромное количество документов, что заставляет пользователя кластеризовать набор документов. Этот случай похож на предыдущий, за исключением того, что нет необходимости понимать значение как таковое для разделения большого количества документов на аналогичные кластеры - достаточно идентифицировать только сходство значения двух или более документов. Потенциально это делает другие методы визуализации обобщенного смысла документа более эффективными. В этой работе мы рассмотрим двухэтапный способ получения общего семантического представления документа. На первом этапе в автоматическом режиме выполняется семантический анализ документа. Это делается путем применения методов анализа контента и лексикографического анализа к текстовым документам. Первое реализовано путем подсчета TF и других мер, а второе - с помощью нейронной сети, предназначенной для семантического разрешения текстовых предложений. Результатом первого этапа является взвешенная семантическая сеть, которая характеризует частоту использования понятий в документе, а также наличие и силу семантических связей между понятиями. Этот семантический образ документа визуализируется как единое целое на втором этапе. Затем этот визуальный образ представляется пользователю для быстрого понимания смысла документа. Таким образом, предлагаемый подход представляет собой комбинацию семантического и визуального анализа. Необходимость быстро обрабатывать постоянно увеличивающиеся объемы информации в текстовых документах существует в самых разных сферах деятельности. В этой статье мы рассматриваем проблему с точки зрения регионального административного управления. В этой области существует много объектов управления с довольно сложными отношениями, вызванными административной иерархией, территориальными особенностями и другими факторами. Это создает благодатную почву для появления большого количества документов с перекрывающимися, а также противоречивыми смыслами. В качестве примера для исследования мы взяли два документа, отражающих стратегические приоритеты России в Арктическом регионе: 1. Стратегия социально-экономического развития Мурманской области до 2020 года и на период до 2025 года (далее - «Стратегия МО») [2]; 2. Стратегия развития Арктической зоны Российской Федерации и обеспечения национальной безопасности на период до 2020 года (далее - «Стратегия АЗРФ») [3]. Выпущенные на разных административных уровнях и, очевидно, имеющие пересекающиеся субъекты рассмотрения (Мурманская область является частью арктической зоны Российской Федерации), эти документы являются хорошим примером для рассмотрения. Остальная часть статьи разделена на два основных раздела. В первом разделе рассматриваются подходы, методы и программные средства для 101

RkJQdWJsaXNoZXIy MTUzNzYz