Ich werde sehr häufig gefragt, wie wir eigentlich Spam messen. Heute möchte ich einen Einblick geben, welchen Ansatz wir unter anderem verfolgen. Es gibt ganz unterschiedliche Ansätze, wie die Rate der Spam-Nachrichten erfasst werden kann, die durch unsere Filter hindurch in den Posteingang gelangen.
Ein sehr wichtiger Bestandteil unserer Spamidentifikation basiert auf realen Nutzerdaten: Wir wählen eine Stichprobe von Nutzern aus, die in vielerlei Hinsicht einen Großteil der anderen Nutzer repräsentieren, zum Beispiel das Alter des Benutzerkontos oder das Land. Diesen Nutzern senden wir eine spezifische Auswahl von Nachrichten zur Klassifizierung zu. Zurzeit finden sich in dieser freiwilligen Feedbackschleife ungefähr 500.000 Nutzer, die uns somit helfen, unsere Systeme zu trainieren.
Ein anderer Ansatz, den einige andere E-Mail-Dienste verwenden, ist zu messen, wie oft Nutzer Spam melden, indem Sie auf den „Junk-E-Mail”-Link klicken. Allerdings hat dieses Vorgehen einige Schwachstellen: Unzuverlässige Daten, fälschlicherweise als Junk ausgewiesene E-Mails (so genannte false positives), Unregelmäßigkeiten im Datenfluss, Anfälligkeit für „Herumspielen” sowie die Abhängigkeit von der Bereitschaft der Nutzer, Spam zu melden.
Wie lässt sich die Effektivität bei der Spam-Bekämpfung vergleichen?
Die Form der Feedbackschleife bietet uns eine statistische Perspektive auf die Nutzerwahrnehmung.
Ein Eins-zu-eins-Vergleich der Effektivität der Spam-Filter zwischen einzelnen E-Mail-Diensten ist jedoch schwierig. Denn dabei wird die Spam-Rate in unterschiedlichen Konten in ganz verschieden gelagerten Umgebungen verglichen. Folgende Faktoren sind dabei zu berücksichtigen:
- Wie wird das Nutzerkonto verwendet?
Wird die E-Mail-Adresse für eine Vielzahl an Webseiten verwendet, zum Beispiel, um verschiedene Online-Einkäufe zu erledigen?
- Wie lange existiert das Konto bereits?
Ältere E-Mail-Adressen haben eine längere Zeit in den Tiefen des Internet verbracht. Damit steigt automatisch die Wahrscheinlichkeit, dass sie sich auf der Liste eines Spammers befinden.
- Wie groß ist der E-Mail-Service, bei dem das Konto registriert ist?
Der letzte Punkt ist nicht selbsterklärend: Hotmail ist ein wichtiges Ziel für Spammer, da wir über eine hohe Zahl aktiver Nutzer verfügen. Unsere Technologie zum Bekämpfen von Spam ist jedoch gerade deshalb so effektiv und effizient, weil wir die sehr unterschiedlich ausgeprägten Spam-Attacken nachvollziehen können, die im Internet passieren. Aus diesen Erfahrungen und Informationen können unsere Systeme sofort lernen, den Spamschutz sekundenschnell automatisch verbessern und Sie dadurch schützen.
Christian Weghofer