Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

6 N r m научных тп д м 2011 СЕМАНТИЧЕСКАЯ ОБРАБОТКА ИНФОРМАЦИИ В СОВРЕМЕННЫХ ФАКТОГРАФИЧЕСКИХ СИСТЕМАХ А.А. Зуенко, А.Я. Фридман Введение Большинство фактографических систем исполь­ зуют для хранения и обработки данных реляционные СУБД (РСУБД), а также их расширения. Популяр­ ность реляционной модели данных обусловлена сле­ дующими причинами: 1. Понятность пользователю, не имеющему осо­ бых навыков в программировании. 2. Возможность присоединения новых элементов данных, записей, связей без изменения соответст­ вующих подсхем и, следовательно, прикладных про­ грамм. 3. Максимальная гибкость при обработке неза­ планированных запросов с терминалов. Но, пожалуй, главная причина успеха РСУБД со­ стоит в том, что они базируются на строгом матема­ тическом аппарате - реляционной алгебре [1]. Не­ смотря на несомненные преимущества РСУБД для задач обработки данных, все попытки наделить эти системы интеллектуальными способностями, такими как дедуктивный вывод и управление данными на основе экспертных знаний о предметной области, до сих пор не имели коммерческого успеха. Осознавая недостатки своей реляционной модели в части пред­ ставления семантики предметной области, Э. Кодд предложил расширенную реляционную модель (RM/T), в рамках которой были типизированы сущ­ ности и отношения между ними, введены новые пра­ вила ссылочной целостности. Однако модель RM/T также оказалась не приспособлена для представле­ ния основных структур знаний и "встраивания" про­ цедур логического вывода. По мнению авторов, сложившаяся ситуация обу­ словлена отсутствием единого аппарата для обработ­ ки данных и знаний. Другими словами, требуется более мощная алгебраическая система, чем реляци­ онная алгебра, которая бы позволила c единых пози­ ций представлять и анализировать табличные данные и экспертные знания. В настоящей работе подробно рассмотрены со­ временные тенденции в СУБД на основе реляцион­ ной модели данных, их достоинства и недостатки, а также одно из возможных расширений реляционной алгебры на задачу обработки знаний - алгебра кор­ тежей. Реляционные СУБД В реляционных БД основными объектами управ­ ления являются файлы, организованные в виде таб­ лиц. Эти таблицы (отношения) состоят из множества элементарных кортежей. Для реализа­ ции запросов над файлами или представлениями БД используется реляционная алгебра со своим набором операций. Пять из этих операций - основные: проек­ ция, объединение, прямое произведение, разность и селекция. Остальные операции реляционной алгебры реализуются как комбинации основных. Как правило, РСУБД не позволяют добавлять но­ вые типы данных, то есть набор типов данных в РСУБД заранее определен и фиксирован. Классиче­ ские РСУБД не поддерживают композитных атрибу­ тов (домены таких атрибутов содержат пользова­ тельские типы данных, составленные из предопреде­ ленного набора элементарных типов), несмотря на то, что они не противоречат реляционной модели. Сильная сторона реляционных СУБД заключает­ ся в том, что в них встроен язык запросов SQL, реа­ лизующий операции проекции и соединения отно­ шений и предоставляющий необходимые средства для выполнения незапланированных запросов. За­ просы к базе данных возвращают результаты в виде таблиц, которые тоже могут выступать как объект запросов. РСУБД, в отличие от иерархических и сетевых СУБД, позволяют организовывать связи между таб­ лицами в любой момент обработки [2]. В каждой таблице БД имеется, как правило, хотя бы одно поле, служащее ссылкой для другой таблицы. В термино­ логии РСУБД такие поля называются полями внеш­ них ключей. С помощью внешних ключей можно связывать любые таблицы БД на любом этапе рабо­ ты. Кроме того, на основе внешних ключей реализу­ ется механизм, обеспечивающий ссылочную целост­ ность данных. С появлением РСУБД связывают возникновение двухзвенной архитектуры распределенных приложе­ ний “клиент-сервер” (например, [3]), поскольку РСУБД ориентированы на многопользовательскую обработку данных. К основным недостаткам РСУБД относят то, что их семантическая составляющая развита слабо. Это, с одной стороны, затрудняет использование РСУБД в системах поддержки принятия решений и в предметных областях, имеющих сложно структури­ рованные данные, где требуются дополнительные средства представления семантики данных. С другой стороны, программирование алгоритмов выборки данных на языке SQL порождает громоздкие конструкции. В работе [4] приведен пример 23

RkJQdWJsaXNoZXIy MTUzNzYz