2009-07-05 // Vermeintlich sinnloser Wortlisten-SPAM und dessen Hintergrund
Gerade schlug hier eine Mail auf, die nur mit ca. 150 sinnlos wirkenden Worten angefüllt war. Ohne erkennbaren Inhalt, sowas kommt von Zeit zu Zeit vor.
Wer sich schon immer gefragt hat, warum Spammer solche “bescheuerten” Mails rausschicken (schließlich bekommt man damit ja nix verkauft), dem sei gesagt: das sind keine ungewollten Fehler, das sind auch keine Erreichbarkeitstests. Mit solchen Mails soll das Durchkommen künftiger SPAM-Wellen bzw. der dazu benötigten Schlüsselwörter begünstigt werden. Mit den Wortlisten werden statistische Filter mit Fehlinformationen gefüttert. Im Speziellen geht es da meist um das Vergiften von Bayesschen Filtern, denn die gängigen Implementierungen sind “lernend” hinsichtlich der Worthäufigkeiten in bereits durchgekommenen E-Mails. Das ist der profane Hintergrund dieser rätselhaften Mails.
Comments
@KingCrunch: Danke für den vermeintlichen Hinweis, aber was du schreibst ist Unsinn. Filter auf Basis des Bayes-Klassifizierers heißen nuneinmal “Bayesscher Filter”, “Bayes-Filter” oder manchmal sogar ganz explizit “Bayes-Spam-Filter”. Und das sowohl im englischen als auch deutschen Sprachraum. Und an Universtitäten.
Die Links im Posting sind zum anklicken da, dann hättest du das ganz schnell selber herausgefunden . Es ist Fakt, das Filter-Implementierungen “lernen” und trainiert werder müssen. Was du lapidar “externe Faktoren” nennst, nenne ich “vollständiges Programm” welches man durchaus als “Bayesscher (Spam-)Filter” bezeichnen darf und kann.
Und das mit den Captchas: hier wurde massive automatisiert reingewürgt – also wenn überhaupt, dann angemessen und nicht paranoid. Da ich meine Blog-Software selbst geschrieben habe, hatte ich eben mehr Zeit für das Blog als für die Captchas, und ein “Lösche dieses Feld” war sehr effektiv. Nichts desto weniger hast du recht: benutzerfreundlich ist anders. Ich bin ich jetzt mal umgesattelt (also mit dem gesamten Blog-Unterbau hin zu einer Wiki) und mit aktivem JavaScript sollte man nun gar nicht mehr beim schreiben von Kommentaren durch Captchas gestört werden.
Leave a comment…
- E-Mail address will not be published.
- Formatting:
//italic// __underlined__
**bold**''preformatted''
- Links:
[[http://example.com]]
[[http://example.com|Link Text]] - Quotation:
> This is a quote. Don't forget the space in front of the text: "> "
- Code:
<code>This is unspecific source code</code>
<code [lang]>This is specifc [lang] code</code>
<code php><?php echo 'example'; ?></code>
Available: html, css, javascript, bash, cpp, … - Lists:
Indent your text by two spaces and use a * for
each unordered list item or a - for ordered ones.
“Bayes” ist kein Filter, sondern ein Klassifizierer! Es gibt Filter auch auf Basis des Bayes-Klassifizierers (Binär-Klassifizierer), aber deren Lernverhalten oder -vermögen hängt von externen Faktoren ab. Ein Klasssifizierer lernt nicht von selbst.
Und so ganz nebenbei: Das Captcha ist bei schwarzem Hintergrund nicht lesbar. Usability ole (Wie paranoid kann man sein, dass man gleich zwei Filter einbaut…)