Труды КНЦ (Технические науки вып.3/2025(16))
количество объектов и атрибутов, и извлекаются только максимальные «Clusters, чтобы избежать создания слишком большого количества кластеров. Пусть O — множество объектов. Каждый объект имеет множество атрибутов A, а домены атрибутов в A ограничены. Используем x, у для обозначения объектов в O, а буквы a, b — для обозначения атрибутов в A, Ra — для обозначения диапазона значений атрибута а и Vxa — для обозначения значения объекта x по атрибуту а. Расстояние между двумя объектами x и у по атрибуту а определяется как |vxa —Vya|. Если расстояние меньше предопределенного порога, то x и у называются соседями по атрибуту а. Аналогично определяются соседи объекта по подмножеству атрибутов в A , и они называются соседями по подпространству. Атрибуты обычно не имеют одинаковых диапазонов значений. Поэтому вместо использования постоянного порога для всех атрибутов используется относительный порог расстояния [23]. Определение 1 (д-сосед в подпространстве). Пусть x, у — два объекта, а G Q A — подмножество атрибутов. Если для каждого номинального атрибута а 6 G, имеется Vxa = Vya, и для каждого непрерывного атрибута а 6 G, имеется |vxa —Vya| < S Ra, где д — предопределенный порог, то x и у называются д-соседями друг друга в подпространстве G. Если объекты из множества T являются д -соседями друг друга на наборе атрибутов G , то эти объекты образуют кластер в подпространстве G и называются его д-«-кластером. Определение 2 (подпространственный д-«-кластер). Пусть T Q O — множество объектов, а G Q A — множество атрибутов. Если для каждых двух объектов x, у 6 T и каждого атрибута а 6 G, объекты x и у являются д-соседями по атрибуту а, то (T, G) — это подпространственный д-«-кластер или просто д-«-кластер. Пример 2 [23]. В таблице 1 представлен набор данных с 4 атрибутами и 8 объектами. Диапазоны значений атрибута a, b, с и d равны [0, 20], [-50, 50], [0, 100] и [0, 30] соответственно. Если установить д на 0,1, то кортеж ({1, 2, 4, 6, 8}, {а}) образует д-«-кластер, так же как и кортеж ({1, 6}, {a, b, c}). Если в табл. 1 установить д в 0,2, можно найти кластер подпространства ({2, 3, 4}, {a, b}), который не может быть найден с помощью подхода на основе сетки. Труды Кольского научного центра РАН. Серия: Технические науки. 2025. Т. 16, № 3. С. 35-55. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2025. Vol. 16, No. 3. P. 35-55. Таблица 1 Пример набора данных № объектов а b с d i 5 0 27 0 2 6 50 75 24 3 3 -29 53 i3 4 5 -2 5i 30 5 0 i i00 7 6 6 4 29 i9 7 20 27 23 i 8 7 -50 0 2 Пусть имеется два «-кластера (Ti, Gi) и (T 2 , G 2 ), и если Ti Q T 2 и Gi Q G 2 , то (Ti, Di) является подкластером (T 2 , G 2 ), а (T 2 , G 2 ) является суперкластером (Ti, Gi). Если либо Ti с T 2 , либо Gi с G 2 , то (Ti, Gi) является собственным подкластером (T 2 , G 2 ). д-«-кластеры обладают следующим свойством, основанным на их определении. Свойство 1 (свойство антимонотонности). Пусть T Q O — набор объектов, а G Q A — набор атрибутов. Если T и G образуют д-«-кластер, то T образует д-«-кластер с каждым подмножеством G, а G образует д-«-кластер с каждым подмножеством T [23]. Чтобы кластер был осмысленным и полезным, он должен содержать нетривиальное количество объектов и атрибутов. Используется два порога mr и тс для ограничения минимального количества объектов и атрибутов, необходимо найти только д-«-кластеры, содержащие не менее mr объектов и тс атрибутов. © Зуенко О. Н., Фридман О. В., 2025 44
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz