Вестник Кольского научного центра РАН. 2011, №3.

метаданные, необходимые для определения правильных алгоритмов обработки данных информационного ресурса. Концепция Семантик-веб На сегодняшний день в глобальной сети Интернет представлено огромное множество различных информационных ресурсов. Их использование человеком заключается в отборе ресурсов и содержащихся в них данных, наиболее релевантных решаемой задаче. Данный процесс можно рассматривать как проведение семантической интеграции информации человеком с целью образования информационного пространства, на основании которого он способен выработать определенное решение некоторой задачи. Существенной трудностью при этом является гигантский объем данных в сети Интернет. Для решения данной проблемы используются поисковые машины. Они позволяют облегчить сбор информации путем предоставления ранжированного согласно субъективной релевантности (т.е. «с точки зрения поисковой машины») перечня ресурсов, который можно также отнести к своего рода интегрированному представлению информации об объекте запроса. Однако такое представление, как правило, включает большие фрагменты данных, в которых может находиться лишь небольшое количество нужной пользователю информации. Это приводит к необходимости последующей обработки представленного набора информационных ресурсов уже человеком. Усложнение же механизмов индексации и поиска хоть и позволяет в некоторой степени повысить эффективность информационного обеспечения пользователя, но оно также имеет свои пределы. Например, использование в поисковых машинах методов компьютерной лингвистики позволяет повысить релевантность результатов. Это достигается за счет выявления семантики в индексируемых ресурсах в процессе их комплексного языкового анализа, но ценой такого повышения релевантности является существенное уменьшение быстродействия поисковых систем и необходимость привлечения дополнительных вычислительных ресурсов [12]. Основной технологической проблемой, принципиально ограничивающей возможности оперирования семантикой в рамках современного Интернета, является то, что веб-ресурсы представлены в большинстве своем отформатированными при помощи HTML-разметки текстовыми блоками, связанными друг с другом URL-ссылками. Никакой машинопонимаемой семантики информации такие ресурсы не несут. Данное обстоятельство является следствием того, что с появлением ЭВМ долгое время не уделялось должного внимания проблеме сопряжения данных, хранимых в ЭВМ, и их смысла, подразумеваемого человеком. Разумеется, в рамках решения одиночных задач это не так важно. Программист в этом случае создает некоторую структуру с данными и программный код, в котором реализует свои знания о семантике данных. Это приводит к тому, что программа «знает» смысл того или иного фрагмента информации, и каким образом он должен быть обработан, однако, для другой обрабатывающей программы эта информация становится в смысле семантики черным ящиком, набитым абстрактными данными, интерпретировать которые можно как угодно. Концепция глобальной сети Интернет предполагает общий доступ к информационным ресурсам, то есть их обработка может осуществляться впоследствии множеством программ и людей. Но если для людей, как правило, семантика информации представлена, ввиду описания данных посредством естественного языка, то для программ такого сказать нельзя. Это не позволяет использовать ЭВМ для осуществления эффективной обработки большого объема данных и приводит к проблеме информационного хаоса в сети Интернет. На решение обозначенной проблемы направлен проект построения так называемой семантической сети (Semantic Web) [13]. Основной идеей данного проекта является формальное представление семантики любой информации посредством метаинформации в рамках одного информационного ресурса. Это позволит сделать данные машинопонимаемыми (machine readable) и соответственно обеспечить их обработку с помощью программных агентов. В качестве основных средств описания и последующей работы с метаинформацией, представляющей семантику, в рамках проекта Semantic Web используются: • XML (Extensible Markup Language) [14] - расширяемый язык разметки, являющийся гибким текстовым форматом для описания документов произвольной структуры. XML обеспечивает возможность включения метаинформации, несущей машинопонимаемую семантику, в контент ресурса; • RDF (Resource Definition Framework) [15] - стандарт, принятый в 1999 г. консорциумом W3C и поддержанный ведущими производителями программного обеспечения. Он включает две части: 69