Труды КНЦ (Технические науки вып. 7/2023(14))

Труды Кольского научного центра РАН. Серия: Технические науки. 2023. Т. 14, № 7. С. 16-25. Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2023. Vol. 14, No. 7. P. 16-25. получены из других источников знаний, например, из прогноза погоды. Предположим теперь, что нужно классифицировать пример e = {Погода = Солнечная, Ветер = Сильный}, собственно, это все, что известно, об остальных атрибутах информации нет. В соответствующей абдуктивной структуре, учитывая начальный набор Ae = {Погода(Солнечная), Ветер(Сильный)}, класс Да имеет абдуктивное объяснение A 1 = {Влажность(Низкая)}, а класс Нет имеет абдуктивное объяснение A 2 = {Влажность(Высокая)}. Если теперь рассмотреть приведенное выше ограничение целостности, то абдуктивное объяснение A 2 исключается из-за того факта, что полное объяснение, данное AeuA 2 = {Погода ( Солнечная ), Ветер (Сильный), Влажность (Высокая)}, противоречиво. Таким образом, применяя тот же самый вычислительный механизм, получаем правильную классификацию в отношении дополнительных знаний, специфичных для предметной области. Во многих случаях деревья решений могут содержать вероятностные показатели результата проверки атрибутов/значений. Другими словами, каждая ветвь дерева помечается не только значением, соответствующим атрибуту, обозначающему родительский узел, но и мерой вероятности, которая обозначает, насколько вероятно, что в данном наблюдении атрибут принимает такое значение. Использование дополнительных знаний в задачах поиска частых паттернов и ассоциативных правил Чтобы направить процесс поиска на достижение целей пользователя и сократить лишние паттерны, нужно определить ограничения [14-16]. Самым широко используемым является ограничение на частотность (minsup). Приведем пример. Пример 2. База последовательностей — это множество кортежей (sid, s), где sid — идентификатор последовательности, а s — сама последовательность. В таблице 2 представлена база данных, состоящая из четырех последовательностей. Поддержка последовательности s 1 в базе данных обозначается sup(s{), это число кортежей, содержащих s 1 в базе данных. Например, в табл. 2 sup((с а )) = 2 . Таблица 2 База данных последовательностей Идентификатор последовательности Последовательность 1 (a b c d a) 2 (d a e) 3 (a b d c) 4 (c a) Замкнутые частые паттерны обеспечивают минимальное представление частых паттернов, т. е., можно получить все паттерны с точным значением их частотности из замкнутых. Перечислим наиболее важные ограничения. • Ограничение на замкнутость [17]. Частый последовательный паттерн s является замкнутым, если не существует другого частого последовательного паттерна s ’ такого, что s содержится в s ’ и sup(s) = sup(s’). Например, с minsup = 2 паттерн (b c) из табл. 2 не является замкнутым, в то время как паттерн (a b c ) удовлетворяет свойству замкнутости. • Ограничение на элементы определяет подмножество элементов, которые должны или не должны присутствовать в последовательных паттернах. Например, если наложить ограничение Citem = sup(p) > 2 л (aep ) л (b е p ), то получаем три последовательных паттерна из табл. 2: p 1 = (a b), p 2 = (a b c) и p 3 = (a b d). • Ограничение на длину. Длина паттерна — это количество элементов, входящих в последовательность, которое обозначается len(p). Например, если len(p) > 3^sup(p) > 2, то получим только два последовательных паттерна ( p 2 и p 3 ). © Зуенко А. А., Зуенко О. Н., 2023 21

RkJQdWJsaXNoZXIy MTUzNzYz