Переход:  Безопасность > Фильтр спама > Фильтр спама >

Байесова классификация

Печать этого раздела Пред. страницаК началу разделаCлед. страница

Вкладка «Байесова классификация» недоступна, если ваш сервер настроен на фильтрацию спама с помощью демона MDaemon Spam Daemon (MDSpamD), работающего на другом сервере. В этом случае обучение системы фильтрации выполняется на другом сервере. Дополнительная информация приводится на вкладке Spam Daemon.

Фильтр спама MDaemon поддерживает обучение по методу Байеса. Такие системы защиты от нежелательных сообщений известны как «байесовские фильтры» и позволяют значительно повысить точность распознавания спама путем обучения системы на образцах нежелательных и легитимных сообщений, предварительно отобранных человеком. Обучение байесовского фильтра представляет собой статистический анализ заведомо «плохих» и «хороших» писем, и формирование базы данных идентификационных признаков спама, т.н. байесовского классификатора, который затем используется при проверке новых писем. Элементы классификатора имеют различные веса и знаки, в зависимости от того, насколько часто и где именно — в «плохих» или в «хороших» письмах — они встречались при обучении системы. Элементы управления на этой вкладке позволяют задать папки для хранения образцов нежелательных и легитимных писем, которые будут использоваться при обучении системы, а также настроить расписание и дополнительные параметры обучения. После этого MDaemon будет каждую полночь выполнять анализ сообщений в этих папках и формировать базу данных характерных признаков допустимых и нежелательных сообщений, а также создавать или обновлять байесовские правила фильтрации на основе полученных результатов. Фильтр спама может повышать или понижать расчетную спам-оценку сообщения по результатам работы байесовских фильтров.

Фильтр спама не использует байесовский фильтр до тех пор, пока не будет выполнено обучение на примере определенного числа заведомо «плохих» и «хороших» писем, заданных на вкладке Байесово автообучение. Другими словами, обработка реального почтового трафика с применением байесовского фильтра, начинается только после формирования достаточного массива статистической информации. Как только вы предоставите системе необходимое количество легитимных и нежелательных сообщений, она будет готова к работе. Для дальнейшего повышения точности распознавания, рекомендуется регулярно «скармливать» системе те письма, которые были классифицированы ею неверно, т.е. принятые за спам легитимные письма и нераспознанный спам.

Байесова классификация

Включить Байесовскую классификацию

Включите эту опцию, чтобы учитывать результаты работы байесовского фильтра при расчете спам-рейтинга сообщений.

Назначить обучение Байесовского фильтра на полночь каждую ночь

Включите эту опцию, если хотите выполнять обучение системы на примерах сообщений в указанных ниже папках «хороших» и «плохих» писем. Содержание этих папок будет анализироваться каждую полночь, после чего сообщения в них будут удаляться. Вы можете назначить обучение системы на другое время. Для этого отключите эту опцию и включите расположенную чуть ниже опцию Запланировать Байесово обучение раз в каждые XX часов. Чтобы полностью запретить автоматическое обучение системы по расписанию, отключите эту опцию и установите ниже значение «0».

Запланировать Байесово обучение раз в каждые XX часов (0 = никогда)

Данная опция позволяет организовать обучение системы с заданной периодичностью. По прошествии заданного здесь интервала система будет анализировать все сообщения, содержащиеся в указанных ниже папках «хороших» и «плохих» писем, и затем удалять содержимое этих папок. Чтобы полностью запретить обучение системы по расписанию, отключите предыдущую опцию и установите здесь значение «0».

Если вы не хотите, чтобы сообщения удалялись после анализа, скопируйте файл LEARN.BAT из папки \MDaemon\App\ в файл MYLEARN.BAT в ту же папку, после чего удалите в файле MYLEARN.BAT две строки, начинающиеся с "if exist" и расположенные ближе к концу файла. Если в этой папке будет находиться файл MYLEARN.BAT, то MDaemon будет использовать его, а не LEARN.BAT. Дополнительную информацию можно найти в файле SA-Learn.txt в папке \MDaemon\SpamAssassin\.

Найти дополнительную информацию по технологиям эвристического анализа и байесовской фильтрации можно на сайте:
 
http://www.spamassassin.org/doc/sa-learn.html.

Не включать в обучение сообщения больше чем XX байт (0 = нет ограничений)

Эта опция определяет максимальный размер сообщений, обрабатываемых при обучении байесовского фильтра. Сообщения больше заданного здесь размера не анализируются. Значение «0» означает, что при обучении будут использоваться сообщения любого размера.

Обучиться

Нажмите эту кнопку, чтобы запустить процесс обучения немедленно.

Включить адрес перенаправления спама и не спама

Эта опция разрешает или запрещает пользователям пересылать нежелательные и легитимные сообщения на определенные адреса электронной почты для формирования массива «плохих» и «хороших» писем, который применяется для обучения системы фильтрации. По умолчанию пересылка должна выполняться на адреса "SpamLearn@<domain.com>" и "HamLearn@<domain.com>", соответственно. Сообщения, отправляемые на означенные адреса, должны быть приняты в ходе SMTP-сеансов, авторизованных по команде AUTH. Кроме того, сообщения должны пересылаться только в виде формате вложений "message/rfc822". Сообщения всех других типов не обрабатываются.

Чтобы изменить адреса для пересылки «плохих» и «хороших» сообщений, измените следующие строки в файле CFilter.INI:

[SpamFilter]

SpamLearnAddress=MySpamLearnAddress@

HamLearnAddress=MyNonSpamLearnAddress@

Примечание: значения этих параметров должны оканчиваться символом «@».

Создать

Нажмите эту кнопку, чтобы создать IMAP-папки общего доступа для хранения образцов «плохих» и «хороших» сообщений, и настроить MDaemon на их использование. При этом будут созданы следующие папки:

\Bayesian Learning.IMAP\

Корневая папка IMAP

\Bayesian Learning.IMAP\Spam.IMAP\

Папка для хранения обучающих нежелательных сообщений, успешно преодолевших фильтр спама (по причине недобора рейтинга).

\Bayesian Learning.IMAP\Non-Spam.IMAP\

Папка для хранения обучающих легитимных сообщений, ошибочно классифицированных системой как спам (т.н. ложные срабатывания).

По умолчанию доступ к этим папкам имеют только локальные пользователи локальных доменов. Почтовому администратору предоставляются права на поиск, чтение, добавление и удаление сообщений в этих папках, всем остальным — только на поиск и добавление писем.

Путь к папке подтвержденного спама (ложные несрабатывания):

Папка для хранения гарантированно «плохих» писем, которые используются при обучении системы фильтрации спама. В эту папку должны копироваться только те сообщения, в нежелательности которых вы полностью уверены. Мы настоятельно не рекомендуем автоматизировать этот процесс любыми средствами, отличными от байесового автообучения или спам-приманок. Автоматизация любыми другими средствами может привести к появлению в означенной папке вполне благонадежных сообщений и, как следствие, снизить точность распознавания спама и увеличить количество ложных срабатываний.

Путь к папке с не-спамом

Папка для хранения гарантированно «хороших» писем, которые используются в ходе обучения системы фильтрации спама. В эту папку должны копироваться только те сообщения, которые абсолютно точно не являются спамом. Мы настоятельно не рекомендуем автоматизировать этот процесс любыми средствами, отличными от функции байесового автообучения. Автоматизация любыми другими средствами может привести к появлению в означенной папке спам-сообщений и, как следствие, снизить точность распознавания спама и увеличить количество ложных срабатываний.

Папка общего пользования

Щелкните одну из этих кнопок, чтобы задать в качестве папки для «хороших» или «плохих» сообщений общедоступную папку IMAP. Использование общедоступных папок позволяет легко подключить к наполнению массива обучающих сообщений конечных пользователей. Следует помнить, что чем больше пользователей участвует в этом процессе, тем выше вероятность предоставления обучающей систем не тех писем, что влечет за собой снижение точности распознавания спама.

При переименовании общедоступной папки средствами почтового клиента, Проводник Windows или другими способами, вам нужно подкорректировать эти пути вручную.

См. также: