Autor Thema: kSpam - Rules vs Bayesian  (Gelesen 6669 mal)

Offline DaWutz

  • Senior Mitglied
  • ****
  • Beiträge: 253
  • Geschlecht: Männlich
kSpam - Rules vs Bayesian
« am: 18.03.05 - 07:35:18 »
Hallo zusammen!

Ich hab da mal eine Frage zu kSpam und dem Verhalten bei Bayesian / Rules.

Was zieht zuerst, die Filterregeln oder der Bayesische (komisches Wort) Filter? Oder laufen die gar etwa garnicht zusammen, will sagen das eine hebelt das andere aus?

Und eine Frage in eigener Sache:
Ich bin grade dabei eine mehr oder weniger umfassende Doku zu kSpam zu erstellen (für meine Abschlussprüfung) - besteht da Interesse an einer "Veröffentlichung", und wenn ja - wo?

Grüße aus einem sonnigen Büro in Bonn!  ;D
Grüße aus Bonn,

Daniel!

Domino 6.5.3 auf Win2k
Clients ab 6.01 CF2

>>... es ist mir scheißegal wer Dein Vater ist! Solange ich hier angele, wird NICHT über´s Wasser gelaufen!! <<

Offline eknori

  • @Notes Preisträger
  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 11.710
  • Geschlecht: Männlich
Re: kSpam - Rules vs Bayesian
« Antwort #1 am: 26.04.05 - 18:21:00 »
Es ziehen zuerst die Rulez, dann der bload.
Der bload sollte aber m.E. von den bisher 10 auf 15 oder 20 relevante Tokens erweitert werden.

Es hat ganze 10 Mails gebraucht, bis er dieses idiotische SPAM erkannt hat, das nur einen Namen enthält.

Im Header sieht das so aus

X-Notes-Item: 1; name=$SMTPNotFromNotes; type=501
X-Notes-Item: 1; name=$NoteHasNativeMIME; type=501
X-Notes-Item:
X-Notes-Item: .; name=InetSendTo; type=501
X-Notes-Item: .; name=INetFrom; type=501
X-Notes-Item: AnnoraAmeen@home-146102.b.astral.ro; name=SMTPOriginator; type=501; flags=44
X-Notes-Item: Memo; name=Form; type=501
X-Notes-Item: Witte; name=KS_IID; type=501
X-Notes-Item: 0.9918; name=KS_BL_PROB; type=501
X-Notes-Item: Chung-Wo: 0.4000,Campara: 0.4000,Content-Transfer-Encoding: 0.9900,7bit: 0.4000,Content-Type: 0.2690,text: 0.5531,plain: 0.3670,charset: 0.2629,iso-8859-1: 0.9900,Amaleta: 0.4000,Cannataro: 0.4000; name=KS_BL_TOKENS; type=501
X-Notes-Item: Bayesian filter; name=KS_REASON; type=501
X-Notes-Item: CN=COMM1/O=Witte/C=de; name=$UpdatedBy; type=501; flags=44
X-Notes-Item: 1; name=$ExportHeadersConverted

========== Message MIME Part ===============

Amaleta Cannataro


Problematisch wird es aber bei komplexen Texten. Ich habe die 1.4 momentan auf einer Maschine mit 300 Usern laufen. Spam / Good  liegt bei  3000 / 2000.  Die user arbeiten in unterschiedlichen Abteilungen; von daher arbeitet der BF nicht gerade super. Ich komme gerade einmal auf 60 % Erkennung.  Ich habe die MailSpam schon auf astreine Spams reduziert und die Mailgood von allem möglichen Durchschnittsgeplapper bereinigt.
Ich lasse das jetzt so einmal bis zum Wochenende durchlaufen; mal sehen, ob das Ding weiter lernt und die false positives Rate runtergeht.

Wenn ich mir die KS_PROB der Mails anschaue, sehe ich leider recht wenig Mails , die irgendwo in der Mitte liegen. Meist ist das 1.000 ( nie unter 0.99 ) oder aber 0,0000. Ein paar Ausreisser gibt es schon, aber eben keine Mail, die zwischen 10 und 90 % liegt. Ich glaube, die Anzahl der Tokens ist mit 10 einfach zu knapp bemessen.

Erfreulich ist die Tatsache, daß der bload nur noch knapp 3 Minuten für die aktualisierung der Tokens beim Reload benötigt. Das war in der 1.38 noch deutlich mehr ...

Nun ja, Pfingsten naht; da kann ich mal ein wenig am SourceCode schrauben ...
 
Egal wie tief man die Messlatte für den menschlichen Verstand auch ansetzt: jeden Tag kommt jemand und marschiert erhobenen Hauptes drunter her!

Offline DaWutz

  • Senior Mitglied
  • ****
  • Beiträge: 253
  • Geschlecht: Männlich
Re: kSpam - Rules vs Bayesian
« Antwort #2 am: 26.04.05 - 18:48:52 »
Hast Du mal die mailSpam SChablone von Brandlehner probiert? Ich habe die hier im Einsatz, und habe damit eigentlich recht gute Erfahrung gemacht. Die Leute müssen halt selber ab und zu reinschauen, ob SPAM´s für sie aufgelaufen sind, aber das ist ja das geringste Problem.

Mails mit so vielen Zahlen in der Adresse
Zitat
AnnoraAmeen@home-146102.b.astral.ro
blocke ich bei mir schon per Rule.

Hmm, und die Frage woher Du die Info´s mit den Tokens und dem Rule vor Bload hast kann ich mir wohl fast schenken, oder? (Aus dem Source?)
Grüße aus Bonn,

Daniel!

Domino 6.5.3 auf Win2k
Clients ab 6.01 CF2

>>... es ist mir scheißegal wer Dein Vater ist! Solange ich hier angele, wird NICHT über´s Wasser gelaufen!! <<

Offline eknori

  • @Notes Preisträger
  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 11.710
  • Geschlecht: Männlich
Re: kSpam - Rules vs Bayesian
« Antwort #3 am: 26.04.05 - 19:01:39 »
richtig, die sourcen geben da einiges zur Beantwortung solcher Fragen her.

Interssant auch Paul Graham in seinen FAQ http://www.paulgraham.com/spamfaq.html

und lesenswert auch sein Artikel "A Plan for Spam" http://www.paulgraham.com/spam.html

Egal wie tief man die Messlatte für den menschlichen Verstand auch ansetzt: jeden Tag kommt jemand und marschiert erhobenen Hauptes drunter her!

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz