Es ziehen zuerst die Rulez, dann der bload.
Der bload sollte aber m.E. von den bisher 10 auf 15 oder 20 relevante Tokens erweitert werden.
Es hat ganze 10 Mails gebraucht, bis er dieses idiotische SPAM erkannt hat, das nur einen Namen enthält.
Im Header sieht das so aus
X-Notes-Item: 1; name=$SMTPNotFromNotes; type=501
X-Notes-Item: 1; name=$NoteHasNativeMIME; type=501
X-Notes-Item:
X-Notes-Item: .; name=InetSendTo; type=501
X-Notes-Item: .; name=INetFrom; type=501
X-Notes-Item: AnnoraAmeen@home-146102.b.astral.ro; name=SMTPOriginator; type=501; flags=44
X-Notes-Item: Memo; name=Form; type=501
X-Notes-Item: Witte; name=KS_IID; type=501
X-Notes-Item: 0.9918; name=KS_BL_PROB; type=501
X-Notes-Item: Chung-Wo: 0.4000,Campara: 0.4000,Content-Transfer-Encoding: 0.9900,7bit: 0.4000,Content-Type: 0.2690,text: 0.5531,plain: 0.3670,charset: 0.2629,iso-8859-1: 0.9900,Amaleta: 0.4000,Cannataro: 0.4000; name=KS_BL_TOKENS; type=501
X-Notes-Item: Bayesian filter; name=KS_REASON; type=501
X-Notes-Item: CN=COMM1/O=Witte/C=de; name=$UpdatedBy; type=501; flags=44
X-Notes-Item: 1; name=$ExportHeadersConverted
========== Message MIME Part ===============
Amaleta Cannataro
Problematisch wird es aber bei komplexen Texten. Ich habe die 1.4 momentan auf einer Maschine mit 300 Usern laufen. Spam / Good liegt bei 3000 / 2000. Die user arbeiten in unterschiedlichen Abteilungen; von daher arbeitet der BF nicht gerade super. Ich komme gerade einmal auf 60 % Erkennung. Ich habe die MailSpam schon auf astreine Spams reduziert und die Mailgood von allem möglichen Durchschnittsgeplapper bereinigt.
Ich lasse das jetzt so einmal bis zum Wochenende durchlaufen; mal sehen, ob das Ding weiter lernt und die false positives Rate runtergeht.
Wenn ich mir die KS_PROB der Mails anschaue, sehe ich leider recht wenig Mails , die irgendwo in der Mitte liegen. Meist ist das 1.000 ( nie unter 0.99 ) oder aber 0,0000. Ein paar Ausreisser gibt es schon, aber eben keine Mail, die zwischen 10 und 90 % liegt. Ich glaube, die Anzahl der Tokens ist mit 10 einfach zu knapp bemessen.
Erfreulich ist die Tatsache, daß der bload nur noch knapp 3 Minuten für die aktualisierung der Tokens beim Reload benötigt. Das war in der 1.38 noch deutlich mehr ...
Nun ja, Pfingsten naht; da kann ich mal ein wenig am SourceCode schrauben ...