Труды КНЦ вып.7 (ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ вып.2 4/2011(7))

(специфичную для каждого метода) информацию о проходящем через неё почтовом трафике, тем самым пополняя базу данных информации о спаме. Качество фильтрации достигается привлечением как можно большего числа участников и совершенствованием механизмов сбора и анализа информации о спаме. Чем больше точек сети предоставляют информацию о спаме и чем качественнее эта информация, тем полнее становится картина действий спамеров и тем эффективнее можно с ними бороться. Однако в рамках распределённых методов фильтрации спама отсутствует возможность тонкой настройки фильтра в отдельно взятой почтовой системе. Локальные методы работают в рамках одной почтовой системы и не используют для работы внешних ресурсов. Так как эти методы не предполагают получения информации о спаме из внешних источников, то каждый раз при изменении вида входящих писем или тактики спамеров, приводящих к большому числу ошибок фильтра, настройка фильтра под характер почтового трафика и работа по повышению качества фильтрации полностью ложится на администратора. Но, в отличие от распределённых методов фильтрации, локальные методы изначально имеют возможность тонкой адаптации под конкретную почтовую систему. Локальные методы Локальные методы можно разделить по принципу, лежащему в основе их работы, на несколько семейств: - байесовская фильтрация; - методы на основе формальных протокольных правил; - процедурные методы; - проверка подлинности отправителя. Байесовская фильтрация Так как спам - это нежелательные письма рекламного характера, рассылаемые массово, то справедливым будет предположить, что эти письма будут содержать одни и те же слова, речевые обороты, названия торговых марок, контактные данные и прочие «атрибуты» рекламы, или даже идентичные фрагменты текста. Именно по наличию этих элементов в теле письма можно сделать вывод о том, является ли письмо спамом или нет. Метод Байесовской фильтрации и позволяет классифицировать письма путём нахождения в теле письма признаков спама - заранее определённых строк и/или их комбинаций. В основе метода лежит использование наивного байесовского классификатора - классификатора, использующего теорему Байеса для определения принадлежности рассматриваемого элемента (в данном случае сообщения электронной почты) к одному из классов. Общий алгоритм работы этого метода состоит из двух фаз: 1. Обучение фильтра - на этой фазе анализируется множество писем, про которые заранее достоверно известно, являются ли они спамом. Для каждого слова из этих писем вычисляется вес - вероятность того, что письмо, содержащее это слово, является спамом. Общая формула этого вычисления имеет вид: 101