AtNotes Übersicht Willkommen Gast. Bitte einloggen oder registrieren.
15.12.19 - 09:11:01
Übersicht Hilfe Regeln Glossar Suche Einloggen Registrieren
News: Jetzt mit HCL Notes / Domino 11 und einem Extraboard für Nomad!
Schnellsuche:
+  Das Notes Forum
|-+  Domino 8 und frühere Versionen
| |-+  ND6: Administration & Userprobleme (Moderatoren: eknori, Hoshee)
| | |-+  kSpam - Rules vs Bayesian
« vorheriges nächstes »
Seiten: [1] Nach unten Drucken
Autor Thema: kSpam - Rules vs Bayesian  (Gelesen 4906 mal)
DaWutz
Senior Mitglied
****
Offline Offline

Geschlecht: Männlich
Beiträge: 253


« am: 18.03.05 - 07:35:18 »

Hallo zusammen!

Ich hab da mal eine Frage zu kSpam und dem Verhalten bei Bayesian / Rules.

Was zieht zuerst, die Filterregeln oder der Bayesische (komisches Wort) Filter? Oder laufen die gar etwa garnicht zusammen, will sagen das eine hebelt das andere aus?

Und eine Frage in eigener Sache:
Ich bin grade dabei eine mehr oder weniger umfassende Doku zu kSpam zu erstellen (für meine Abschlussprüfung) - besteht da Interesse an einer "Veröffentlichung", und wenn ja - wo?

Grüße aus einem sonnigen Büro in Bonn!  Grin
Gespeichert

Grüße aus Bonn,

Daniel!

Domino 6.5.3 auf Win2k
Clients ab 6.01 CF2

>>... es ist mir scheißegal wer Dein Vater ist! Solange ich hier angele, wird NICHT über´s Wasser gelaufen!! <<
eknori
@Notes Preisträger
Moderator
Gold Platin u.s.w. member:)
*****
Offline Offline

Geschlecht: Männlich
Beiträge: 11315


« Antworten #1 am: 26.04.05 - 18:21:00 »

Es ziehen zuerst die Rulez, dann der bload.
Der bload sollte aber m.E. von den bisher 10 auf 15 oder 20 relevante Tokens erweitert werden.

Es hat ganze 10 Mails gebraucht, bis er dieses idiotische SPAM erkannt hat, das nur einen Namen enthält.

Im Header sieht das so aus

X-Notes-Item: 1; name=$SMTPNotFromNotes; type=501
X-Notes-Item: 1; name=$NoteHasNativeMIME; type=501
X-Notes-Item:
X-Notes-Item: .; name=InetSendTo; type=501
X-Notes-Item: .; name=INetFrom; type=501
X-Notes-Item: AnnoraAmeen@home-146102.b.astral.ro; name=SMTPOriginator; type=501; flags=44
X-Notes-Item: Memo; name=Form; type=501
X-Notes-Item: Witte; name=KS_IID; type=501
X-Notes-Item: 0.9918; name=KS_BL_PROB; type=501
X-Notes-Item: Chung-Wo: 0.4000,Campara: 0.4000,Content-Transfer-Encoding: 0.9900,7bit: 0.4000,Content-Type: 0.2690,text: 0.5531,plain: 0.3670,charset: 0.2629,iso-8859-1: 0.9900,Amaleta: 0.4000,Cannataro: 0.4000; name=KS_BL_TOKENS; type=501
X-Notes-Item: Bayesian filter; name=KS_REASON; type=501
X-Notes-Item: CN=COMM1/O=Witte/C=de; name=$UpdatedBy; type=501; flags=44
X-Notes-Item: 1; name=$ExportHeadersConverted

========== Message MIME Part ===============

Amaleta Cannataro


Problematisch wird es aber bei komplexen Texten. Ich habe die 1.4 momentan auf einer Maschine mit 300 Usern laufen. Spam / Good  liegt bei  3000 / 2000.  Die user arbeiten in unterschiedlichen Abteilungen; von daher arbeitet der BF nicht gerade super. Ich komme gerade einmal auf 60 % Erkennung.  Ich habe die MailSpam schon auf astreine Spams reduziert und die Mailgood von allem möglichen Durchschnittsgeplapper bereinigt.
Ich lasse das jetzt so einmal bis zum Wochenende durchlaufen; mal sehen, ob das Ding weiter lernt und die false positives Rate runtergeht.

Wenn ich mir die KS_PROB der Mails anschaue, sehe ich leider recht wenig Mails , die irgendwo in der Mitte liegen. Meist ist das 1.000 ( nie unter 0.99 ) oder aber 0,0000. Ein paar Ausreisser gibt es schon, aber eben keine Mail, die zwischen 10 und 90 % liegt. Ich glaube, die Anzahl der Tokens ist mit 10 einfach zu knapp bemessen.

Erfreulich ist die Tatsache, daß der bload nur noch knapp 3 Minuten für die aktualisierung der Tokens beim Reload benötigt. Das war in der 1.38 noch deutlich mehr ...

Nun ja, Pfingsten naht; da kann ich mal ein wenig am SourceCode schrauben ...
 
Gespeichert
DaWutz
Senior Mitglied
****
Offline Offline

Geschlecht: Männlich
Beiträge: 253


« Antworten #2 am: 26.04.05 - 18:48:52 »

Hast Du mal die mailSpam SChablone von Brandlehner probiert? Ich habe die hier im Einsatz, und habe damit eigentlich recht gute Erfahrung gemacht. Die Leute müssen halt selber ab und zu reinschauen, ob SPAM´s für sie aufgelaufen sind, aber das ist ja das geringste Problem.

Mails mit so vielen Zahlen in der Adresse
Zitat
blocke ich bei mir schon per Rule.

Hmm, und die Frage woher Du die Info´s mit den Tokens und dem Rule vor Bload hast kann ich mir wohl fast schenken, oder? (Aus dem Source?)
Gespeichert

Grüße aus Bonn,

Daniel!

Domino 6.5.3 auf Win2k
Clients ab 6.01 CF2

>>... es ist mir scheißegal wer Dein Vater ist! Solange ich hier angele, wird NICHT über´s Wasser gelaufen!! <<
eknori
@Notes Preisträger
Moderator
Gold Platin u.s.w. member:)
*****
Offline Offline

Geschlecht: Männlich
Beiträge: 11315


« Antworten #3 am: 26.04.05 - 19:01:39 »

richtig, die sourcen geben da einiges zur Beantwortung solcher Fragen her.

Interssant auch Paul Graham in seinen FAQ http://www.paulgraham.com/spamfaq.html

und lesenswert auch sein Artikel "A Plan for Spam" http://www.paulgraham.com/spam.html

Gespeichert
Seiten: [1] Nach oben Drucken 
« vorheriges nächstes »
Gehe zu:  


Einloggen mit Benutzername, Passwort und Sitzungslänge

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006, Simple Machines Prüfe XHTML 1.0 Prüfe CSS
Impressum Atnotes.de - Powered by Syslords Solutions - Datenschutz | Partner: