Труды КНЦ вып.3 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.1 3/2010(3))

различных точек зрения на понятие онтологии и тезаурусе, либо к их отсутствию, так как в тезаурусе может вообще не найтись подходящего понятия. Последнее особенно вероятно для онтологий узких предметных областей или онтологий задач. Метод сравнения понятий различных онтологий, предлагаемый в настоящей работе, основывается на том предположение, что контекст употребления одних и тех же терминов в текстовых источниках, описывающих одну предметную область одинаковы. Сравнивая эти контексты, можно судить о семантической близости понятий, соответствующих данным терминам и определенных в разных онтологиях. Основные преимущества предлагаемого подхода заключаются в устранении субъективности неформальных описаний элементов онтологии, отсутствии необходимости использования специализированных тезаурусов, а также ориентированность на применение для онтологий, описывающих практически любую предметную область или задачу. 2. Общее описание метода Применение метода осуществляется в два этапа: формирование контекстов понятий онтологии для более полного представления их интерпретаций и сравнение полученных контекстов для оценки семантической близости понятий. Формирование контекстов рекомендуется проводить разработчику онтологии в качестве одной из заключительных фаз ее создания. При этом следует использовать некоторый корпус текстов, в которых с точки зрения разработчика онтологии, используемые им понятия, имеют правильное значение. Роль такого корпуса текстов могут играть наборы инструкций, рабочих документов, научных статей и т. п. Сравнение контекстов производиться уже непосредственно во время процесса интеграции онтологий, прошедших обработку на первом этапе, где оно, как правило, выполняется наряду с другими методами для получения дополнительных оценок семантической близости понятий. Под контекстом термина в данном случае будем понимать набор множеств лексем Q, семантически связанных с лексемой, обозначающей термин, в некотором корпусе текстов, относящимся к предметной области или задаче: а ={КъК 2 ,Къ,Кл,К5), где Ki множества лексем, а i определяет их значимость в описании интерпретации термина - чем оно больше, тем более значимым данное множество является. Сами множества состоят из лексем следующих видов: • в Ki попадают лексемы из тех предложений, в которых кроме лексемы, соответствующей понятию, нет других лексем - понятий онтологии, а найденная лексема-понятие употреблено не в значимой роли, например, подлежащее или дополнение; • в K 2 попадают лексемы из тех предложений, в которых помимо искомой лексемы-понятия присутствуют и другие лексемы, соответствующие понятиям онтологии, при этом ни одна из них не является значимой; • в К3 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, при этом других лексем-понятий онтологии не найдено; • в К4 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, при этом в предложении присутствуют другие лексемы-понятия из онтологии; • в К5 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, а в качестве лексемы-сказуемого используется объектное отношение онтологии, либо сказуемое определено как непосредственно описывающее искомую лексему-понятие. Алгоритм формирования контекстов понятий онтологии, включает следующие основные этапы (рис. 1): 1. Обработка содержания текстов корпуса. Документы из текстового корпуса проходят много­ уровневый языковой анализ, приводятся в нормализованную форму, снабженную полученной на этапе анализа информацией. 2. Индексация корпуса. При формировании контекста понятия требуется информация об употреблении соответствующей ему лексеме в тексте. Наряду с этим также необходимо располагать информацией об употреблении в тексте лексем, соответствующих и другим понятиям онтологии. Для этого перед составлением контекста строятся специальные структуры данных, которые содержат информацию об употреблении всех терминов онтологии в корпусе. 3. Формирование контекста. С помощью полученного на предыдущем шаге индекса производиться включение лексем во множества контекстов понятий онтологии. После завершения этапа формирования контекстов понятий онтологий может быть произведено их сравнение. Оно заключается в определении схожести по различным множествам контекстов понятий, входящих в интегрируемые онтологии. Схожесть различных множеств контекста в разной степени влияет на итоговую оценку. Для оценки близости понятий онтологий по их контекстам используется формула Джаккарда, взвешенная по схожести различных множеств контекста: 5 / K A n K B л X п— 1 V к п ^ и кЩ ) где A , B - контексты понятий двух онтологий, l/'A т/~В K n , К п - n-ое множество контекста, - коэффициенты значимости (определяются эмпирически). 42

RkJQdWJsaXNoZXIy MTUzNzYz