Керт, Г. М. Информационные технологии в исследовании топонимии / Г. М. Керт, В. Т. Вдовицын. - Электрон. дан. (1 файл: 20,9 МБ) 23 с. // Вопросы языкознания. - 2005. - N 3.

на следующим образом. Для выбранного из БД набора данных о топонимах необходи мо найти все ассоциативные правила вида {Antecedent —> Consequent I с, s} где: Antecedent и Consequent - непересекающиеся наборы характеристик из описа ния топонимов, определяющие, соответственно, посылку и следствие правила; с (0 < с < 1) - фактор уверенности правила; s - степень поддержки правила. При этом фактор уверенности правила - с определяется как отношение количества записей, содержащих одновременно посылку и следствие, к числу записей, содержа щих только посылку. Степень поддержки правила - s определяется как отношение ко личества записей, содержащих одновременно посылку и следствие правила, к общему количеству всех записей в исходном наборе. Для поиска ассоциативных правил в БД нами разработана программная система DMiner, в основе которой лежит алгоритм поиска значимых множеств - PrefixSpan. Система также включает ряд сервисных функций, связанных с подготовкой исходных данных для их обработки и интерпретации полученных результатов. С помощью раз работанной системы был проведен ряд вычислительных экспериментов с наборами топонимов из БД, в результате которых были получены ассоциативные правила, от ражающие приоритеты в выборе компонентов в названиях географических объектов. В частности, из БД было отобрано 542 записи о русских топонимах, информация о ко торых была собрана в основном на территории Кемского района Карелии. Анализи руемыми характеристиками в данном вычислительном эксперименте были выбраны поля записей описания топонимов, значениями которых являлись: объект, район, се мантические формулы компонентов. Для заданного значения параметра s > 0.5% в ре зультате работы системы DMiner было получено свыше сотни ассоциативных правил, примеры некоторых из них приводятся ниже. Первый блок ассоциативных правил описывает распределение русских топонимов в Кемском районе Карелии по объектам: (район = ‘КЕМСКИЙ’) ===> (объект = ‘ОСТРОВ’) с = 36.43%, s = 35.42%; (район = ‘КЕМСКИЙ’) == = > (объект = ‘ОЗЕРО ’) с = 14.99%, s = 14.57%; (район = ‘КЕМСКИЙ’) ===> (объект = ТОНЯ’) с = 10.81%, s = 10.51%; (район = ‘КЕМСКИЙ’) ===> (объект - 'ГУБА’) с = 7.21%, s = 7.01%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘МЫС’) с = 6.26%, s = 6.08%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘ОСТРОВА’) с = 3.98%, s = 3.87%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘РЕКА ’) с = 3.79%, s = 3.69%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘РУЧЕЙ’) с = 3.41%, s = 3.32%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘НАСЕЛ.ПУНК Т ’) с = 2.84%, s = 2.76%; (район = ‘КЕМСКИЙ’) ===> (объект = ‘БОЛОТО’) с = 2.08%, s = 2.02%. Из полученных результатов можно сделать вывод о том, что в большинстве случаев (36.43%) в Кемском районе топонимы именуют объекты ‘ОСТРОВ1и в меньшей сте пени (2.08%) - объекты ‘БОЛОТО’. Второй блок ассоциативных правил описывает распределение компонентов топони мов, входящих в названия объектов ‘ОСТРОВ’ в Кемском районе Карелии, по семанти ческим классам: (объект=‘ОСТРОВ’, район -'КЕМСКИЙ ’) ===> (семантическая формула = ‘А221 -Вселенная. Ландшафт и полезные ископаемые’) с = 16.14%, s = 5.71%\ (объект—‘ОСТРОВ’, район=‘КЕМСКИЙ’) == = > (семантическая формула = ‘В421-Человек. Онимы (этнонимы, антропонимы)’) с = 7.81%, s = 2.76%; 121

Керт, Г. М. Информационные технологии в исследовании топонимии / Г. М. Керт, В. Т. Вдовицын. - Электрон. дан. (1 файл: 20,9 МБ) 23 с. // Вопросы языкознания. - 2005. - N 3. - С. 102-124.