Труды КНЦ вып.7 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.2 4/2011(7))

где P(W\S) - условная вероятность того, что определённое слово появляется в сообщении, которое является спамом. Это число приближённо равно частоте определённого слова в сообщении, идентифицированном как спам, используемом во время фазы обучения; P(S\ W) - условная вероятность того, что сообщение является спамом при условии, что определённое слово находится в нём; P(W\H) - условная вероятность того, что определённое слово появляется в сообщениях, которые не являются спамом. Это число приближённо равно относительной частоте определённого слова в сообщении, идентифицированном как не спам, используемом во время фазы обучения. 2. Анализ сообщений - на этой фазе входящее почтовое сообщение сканируется на предмет наличия слов, для которых известен вес. Далее делается «наивное» предположение, что все эти слова являются независимыми событиями, то есть частота появления одного слова никак не зависит от частоты появления других. С учётом этого предположения из теоремы Байеса можно получить формулу, по которой будет рассчитываться вероятность того, что анализируемое сообщение - спам: где p - вероятность, что рассматриваемое сообщение - спам; p1(p2 и т.д.) - вес первого (второго и т.д.) слова. После расчёта этой вероятности результат сравнивается с некоторым заранее определённым пороговым значением и принимается решение, к какому классу отнести сообщение. Этот метод обладает рядом преимуществ, которые делают системы, построенные на его основе, самыми популярными на сегодняшний день решениями для защиты от спама. Они просты во внедрении и удобны в использовании, при качественном обучении отсекают до 98% спама [1] и дают возможность дополнительно обучить фильтр в случае ложных срабатываний. Однако такой метод имеет два фундаментальных недостатка, которые широко используются отправителями спама, и могут свести эффективность фильтрации практически к нулю: - Он ориентирован только на работу с текстом. Спамеры помещают информацию, которую хотят донести до получателей, в документ, который не может быть проанализирован как простой текст, например в изображение или документ формата PDF. А этот документ, в свою очередь, вставляют в тело письма. Фильтр не может классифицировать такое сообщение как спам, поэтому пропускает его. - Метод основан на предположении, что в спаме чаще содержатся одни слова, а в нормальных письмах другие. Если это предположение оказывается неверным, то метод утрачивает свою эффективность. Для обхода фильтра используется метод «Байесовского отравления» - в письмо добавляется специально подобранный лишний текст, обманывающий фильтр и заставляющий его считать сообщение нормальным. 102