Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

M i l a n ванных Щ Д 01 20H МЕТОД АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И СРАВНЕНИЯ КОНТЕКСТОВ ПОНЯТИЙ ОНТОЛОГИЙ ДЛЯ ОЦЕНКИ ИХ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ* А.В. Маслобоев, П.А. Ломов, Н.М. Мавренков Введение На сегодняшний день в виду накопления огром­ ного объема знаний в различных предметных облас­ тях проблема их представления и повторного исполь­ зования является весьма актуальной. Одним из ре­ шений данной проблемы является использование онтологических моделей для получения формальной спецификации концептуализации. Под концептуали­ зацией понимается согласованное видение предмет­ ной области группой специалистов (экспертов). По­ лученная в итоге онтологическая спецификация или онтология сочетает в себе, как формализованные знания в виде системы аксиом, так и неформализо­ ванные - вербальные названия и определения терми­ нов и отношений между ними. Эта особенность по­ зволяет использовать ее, как в задачах машинной обработки информации, так и для наглядного пред­ ставления и оперирования знаниями экспертом предметной области. Однако достаточно часто разработка онтологий ведется различными несогласованными группами экспертов, например разными институтами, и возни­ кает ситуация, при которой требуемую предметную область описывает не одна, а несколько семантиче­ ски гетерогенных онтологий. В таких условиях неиз­ бежно возникает задача интеграции онтологий. В общем случае, интеграцию онтологий принято опре­ делять как процесс нахождения сходства двух онто­ логий A и B и, как результат, создание новой онтоло­ гии C, объединяющей и согласующей семантические представления исходных онтологий [1]. В настоящей работе предлагается метод автома­ тического построения и сравнения контекстов поня­ тий различных онтологий для оценки их семантиче­ ской близости в процессе онтологической интегра­ ции. Составления контекста осуществляется в ре­ зультате проведения комплексного анализа корпуса текстов, описывающих ту же предметную область или задачу, что и обрабатываемая онтология. Отдельное внимание в работе направлено на соз­ дание процедур синтаксического анализа текстов и разработку алгоритмов формирования и сравнения контекстов онтологий на основе результатов, полу­ ченных на этапе синтаксического анализа. *Работа выполнена по программе ОНИТ РАН "Фундаментальные основы информационных технологий и систем" (проект № 2.6). Работа поддержана грантом РФФИ (проект N° 08-07-00301-а). 1. Преимущества предлагаемого метода Разработка онтологии подразумевает создание спецификации в виде формального описания некоторой концептуализации мыслимой разработчиком или их коллективом. Частично такую концептуализацию удается специфицировать явно, в виде набора формальных аксиом. Однако некоторая часть формально не описывается, что может быть обусловлено целью разработки онтологии, а также ограничениями языка выбранной онтологической модели. Также следует заметить, что определение совокупности аксиом онтологии, задает систему ограничений множеств интерпретации концептов и отношений, но при этом они остаются всего лишь абстракциями. Для их овеществления разработчик дает им осмысленные имена, а так же производит их аннотирование. Тем самым некоторая (сравнительно большая) часть семантики представляется неформально. Вследствие этого, при интеграции онтологий используются как формальные, так и неформальные методы для сопоставления семантики элементов. Причем, как правило, формальные методы могут быть использованы лишь в дополнение к неформальным [2]. Именно поэтому развитие неформальных методов оценки семантической близости понятий позволит повысить корректность результата интеграции онтологий. В общем, неформальные методы оценки семантической близости состоят в выявлении различных сходств вербальных имен и определений элементов, данных разработчиком онтологии. Однако в этом случае, на оценке близости понятий может сказаться субъективность определений какого-либо понятия, так как они могут быть верными во всех случаях, но по-разному сформулированы. В этом случае весьма вероятно получение негативной оценки близости при сопоставлении схожих понятий различных онтологий. Некоторые методы сравнения также предполагают использование тезауруса, на понятиях которого определены различные лексические отношения (синонимия, гипонимия, омонимия), для выявления схожих слов в определениях или вербальных именах элементов онтологий. Однако не во всех случаях удается найти тезаурус, соответствующий той предметной области или задаче, понятия которой описаны в онтологии. Использование же общих тезаурусов может приводить, либо к неверным оценкам, в случае 41

RkJQdWJsaXNoZXIy MTUzNzYz