Труды КНЦ вып.9 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 10/2018(9))

the development of spatially-distributed systems of various levels and analysis of the results is described in detail. The final part of the paper identifies some promising areas of application of the developed technologies, as well as determines the main directions for further work and the possibilities to expand the functionality of the methods of visual express content analysis of text documents. Keywords : documents visual analysis, content analysis, human-computer interface, management of spatially-distributed systems, tensorflow, TF-IDF 1. Введение С увеличением количества и объема документов, используемых для решения различных прикладных задач, становится все труднее выделить достаточное время для их изучения. Это приводит к распространению ситуаций, когда приходится отказаться от подробного изучения документа, ограничившись кратким обзором, чтобы понять основной смысл. Таким образом, мы жертвуем точностью понимания смысла документа в пользу скорости его интерпретации. Что касается текстовых документов, этот процесс часто называют «диагональным чтением». С диагональным чтением мы получаем некоторый набор основных мыслей, обобщающих смысл документа. Получив общее представление о значении документа, мы интегрируем его как неотъемлемый объект в нашу ментальную систему понятий и, при необходимости, можем «извлечь» его для более детального изучения. В этой работе мы делаем следующий шаг в этом направлении: получение наиболее общего представления о значении документа, которое может быть выражено в одном изображении, интерпретированном одним взглядом. Мы будем называть этот процесс «быстрым пониманием». Благодаря такому подходу, мы можем применять подход визуального анализа для анализа семантики текстовых документов. Работа с электронными документами воплощает задачу быстрого распознавания смысла в разных ситуациях. В этой статье рассматриваются три случая: 1. Представление результатов поиска. Даже самая сложная поисковая система гарантирует только релевантность результата, то есть его соответствие сформулированному запросу, но не реальным ожиданиям пользователя. Удовлетворение реальных ожиданий пользователя должно являться главным свойством результата поиска. Это свойство называется пертинентностью. Для его априорной гарантии можно использовать разные подходы к организации поисковых систем, в том числе предложенные авторами [1]. Однако, для этого необходимо иметь некоторую модель психических стереотипов каждого пользователя, которую чрезвычайно сложно обеспечить в информационных системах массового использования. Поэтому потенциально эффективным подходом может быть дополнение документа в списке результатов поиска изображением, характеризующим его обобщенное значение. Это обеспечит апостериорную быструю оценку соответствия результатов поиска ожиданиям пользователей. В этом случае главная задача визуализации - убедиться, что пользователь в сжатом виде понимает смысл документа. 2. Идентификация противоречивых документов. Этот случай основан на предположении, что документы, которые идентичны в терминах набора понятий, но имеют разную семантическую структуру, вероятно, будут противоречить друг 100

RkJQdWJsaXNoZXIy MTUzNzYz