Труды КНЦ (Технические науки вып.3/2025(16))

Ограничение минимального количества объектов и атрибутов отфильтровывает незначительные ^-«-кластеры, но все еще может получаться слишком большое количество ^-«-кластеров, и многие из них являются избыточными в том смысле, что они могут быть включены в некоторые более крупные ^-«-кластеры. На основании свойства 1, если набор объектов T и набор атрибутов G могут образовывать ^-«-кластер, то любой его подкластер может образовывать ^-«-кластер. Чтобы избежать создания слишком большого количества ^-«-кластеров, рассматриваются только максимальные ^-«-кластеры. Определение 3 (максимальный ^-«-кластер). Пусть T Q O — набор объектов, а G Q A — набор атрибутов, причем T и G образуют ^-«-кластер. Если не существует ^-«-кластера (T ’, G ’), такого, что (T ’, G ’) является собственным подкластером (T, G), то (T, G) называется максимальным ^-«-кластером. Пусть S = 0,1. В наборе данных из табл. 1 ^-«-кластер ({1, 6}, {a, b}) не является максимальным, потому что его набор атрибутов может быть расширен атрибутом с, а его набор объектов может быть расширен объектом 4. В свою очередь, ^-«-кластеры ({1, 4, 6}, {a, b}) и ({1, 6}, {a, b, с}) являются максимальными ^-«-кластерами, потому что ни их наборы объектов не могут быть расширены без сокращения их наборов атрибутов, ни их наборы атрибутов не могут быть расширены без сокращения их наборов объектов [23]. Поиск ё-н-кластеров с одним атрибутом Необходимо найти максимальные ^-«-кластеры, поэтому для каждого подпространства G находятся максимальные наборы объектов, которые могут образовывать ^-«-кластеры с G. Атрибут может образовывать ^-«-кластеры с несколькими максимальными наборами объектов. Их поиск производится на основе следующего наблюдения. Лемма 1 [23]. При наличии атрибута а и набора объектов T, кортеж (T, {a}) является ^-«-кластером тогда и только тогда, когда max{vXa\x е T} - mi«{vXa\x е T} < S Ra. На основе вышеприведенной леммы определяют максимальные наборы объектов атрибута, используя метод, аналогичный методу, использованному в [44] для поиска наборов максимальной размерности (MDS). Далее объекты в O сортируются в порядке возрастания их значений по атрибуту a, а затем ищутся пары позиций p 1 и p 2 (p 1 < p2) в отсортированной последовательности, такие, что разность значений в двух позициях не больше S Ra, но разница между значениями в p —1) и p 2 или в p 1 и (p 2 + 1) больше S Ra. Если количество различных значений атрибута очень большое, то количество сгенерированных списков максимальных объектов также может быть очень большим. Это может создать трудности для алгоритма интеллектуального анализа. Чтобы избежать генерации слишком большого количества сильно перекрывающихся списков максимальных объектов по одному и тому же атрибуту, используют порог ш для управления перекрытием. Порог ш используется следующим образом. Пусть T — текущий максимальный набор объектов, обнаруженный по атрибуту a, а R t — диапазон T, т. е. R t = [mi« xer {vxa}, max xer {vxa}]. Тогда диапазон следующего максимального набора объектов не может иметь более ш \Rt | перекрытия с R t . Когда ш = 0, атрибуты делятся на неперекрывающиеся ячейки, как в подходе на основе сетки. В таблице 2 показаны максимальные наборы объектов для всех атрибутов, сформированные на основе табл. 1. Каждый атрибут и его максимальный набор объектов образуют S ^ -кластер. Эти S ^ -кластеры используются в качестве отправных точек для поиска S ^ -кластеров, содержащих большее количество атрибутов. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. Таблица 2 Максимальные наборы объектов атрибутов Атрибут Максимальный набор объектов a1 {1, 3, 4} a2 {1, 2, 4, 6, 8} b1 {1, 4, 5, 6} C1 {1, 6, 7} C2 {3, 4} d1 {1, 7, 8} © Зуенко О. Н., Фридман О. В., 2025 45

RkJQdWJsaXNoZXIy MTUzNzYz