Труды КНЦ вып.12 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып. 5/2021(12))

For citation: Fridman O. V. Data mining - methods and algorithms, summary // ^ansactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 91-103. http://dx/doi.org/10.37614/2307-5252.2021.5.12.008. Введение Data Mining (дословно добыча данных) - на русский язык чаще переводится как «анализ данных». При переводе термина «Data Mining» на русский язык используют различные варианты: добыча данных, извлечение данных, интеллектуальный анализ данных, обнаружение знаний в базах данных и др. По мнению многих авторов не существует «неинтеллектуального» анализа данных, см. например [1]. Методы Data Mining предназначены для обнаружения и обработки знаний и данных в различных предметных областях, которые могут быть использованы при принятии решений. Data Mining представляет собой совокупность различных методов, таких как классический статистический анализ, корреляционно-регрессионный анализ кластерный анализ и др. и использует современные информационные технологии. Достоинством и привлекательностью методов Data Mining является возможность обработки как количественных, так и качественных данных. Современные методы Data Mining основаны на теории искусственного интеллекта (ИИ). Их можно подразделить на методы, которые направлены на получение описательных результатов (итеративные методы кластерного анализа, самоорганизующиеся карты Кохонена, методы визуализации) и методы, позволяющие проводить прогнозирование, заполнять «лакуны» в неполных или недостоверных исходных данных. К прогностическим методам относят нейронные сети, деревья решений, линейную регрессию, метод ближайшего соседа, метод опорных векторов и др. Теперь кратко рассмотрим некоторые методы и алгоритмы Data Mining. Байесовская классификация В работе [2] наивные байесовские классификаторы описывают как семейство простых «вероятностных классификаторов», которые применяются на основе теоремы Байеса с независимостью предположений между функциями. Это одни из самых простых байесовских сетевых моделей, которые могут обеспечить высокий уровень точности. Наивный алгоритм Байеса не всегда является собственно байесовским. В работе [3] описано применение байесовской классификации в экспертных системах. Работа [4] дает представление о «прозрачных» моделях и применении метода для решения задач классификации. В работе [5] приводятся свойства наивной классификации и достоинства байесовских сетей как метода Data Mining, такие как: интерпретируемость, быстрота, масштабируемость и др. В работах [4, 6] описаны недостатки Наивного байесовского алгоритма, такие как: сложность в обработке непрерывных переменных (их предварительно необходимо шкалировать), вынужденная избыточность описания значений атрибутов для получения обучающего набора данных, сложность применения для реальных задач из-за невозможности иметь набор функций, полностью независимых друг от друга и др. 92