E-Mail Adressen in Foren

  • Moin,

    in diesem Thread wurde empfohlen, Mailadressen in Foren zu verschleiern. Es ist naiv zu glauben, dass Bots so dumm sind, das nicht zu erkennen, das ist ein Einzeiler der jede so verschleierte Mailadresse korrekt formatiert.

    sed -E 's/\b([[:alnum:]._%+-]+)[[:space:]]*(äht|at|@)[[:space:]]*([[:alnum:].-]+)[[:space:]]*(dot|punkt|\.|\s*\.\s*)[[:space:]]*([[:alpha:]]{2,})/\1@\3.\5/gI'

    Die verschleierten Adressen "dl7bj äht darc dot de", "user @ example punkt com", "user at example dot de", "user äht example dot com" und "dl7bj at darc punkt de" werden vollständig und korrekt mit der obigen Zeile mit der Hilfe von sed in korrekte Mailadressen umgewandelt. sed ist ein Standardtool, bei jedem Linux (und *BSD und so ziemlich jedem anderen *nix) in der Grundinstallation bereits dabei.

    Mit wenigen Anpassungen sind auch viele andere verschleierte Mailadressen korrekt zu formatieren, ich habe hier nur 5 Beispiele ausgewählt, jede Mischform der Mailadressen erkennt auch diese eine Zeile und baut daraus eine korrekte Adresse.

    Gegen Scraper ist es wirkungslos, die Adressen zu verschleiern. Auch Grafiken oder andere Dokumente wie Office & PDF nützen nichts, die kann man genauso simpel auslesen.

    73, Tom

  • Tom, netter Einwand!

    Wer will, der kann, wie Du es im Beispiel zeigtest.
    Hauptproblem eigentlich in allen Foren, eine Mailadresse wird ganz schnell zu einem anklickbaren Link.
    Verschleiert man einfach, ist es schon nicht mehr ein verräterischer Link.
    Damit ist schon viel gewonnen, der Bot interpretiert die Mailadresse dann eher als nichtssagende Textzeile.

    Du nahmst "at" und "äht" zur möglichen Umwandlung, es gibt noch viel mehr Möglichkeiten.
    Der Buchstabe "ä" hat den Vorteil, daß es ihn nur in wenigen Sprachen gibt.
    Heißt im Klartext, der Bot muss schon darauf programmiert sein, gerade deutsche Adressen abzugreifen.
    Ein "ä" wird eher eher nicht mögen, dürfte bei vielen Anbietern von Mailadressen unzulässig sein, Ausschlusskriterium.

    Tom, sicher ist man nicht, man sollte nur nicht unnötig leichtsinnig sein!
    Es gibt halt Fälle, da will man seine Mailadresse geschickt bekanntgeben.
    Ein Mensch soll die erkennen, deswegen darf es nicht zu kryptisch werden.
    Nebenbei, wir Funkamateure haben den Vorteil, daß wir was mit Telegraphie anfangen können, auch bei Mailadressen.

    73 de -.. .-.. ..--- .--- .- ...

  • Moin Tom,

    JFTR, ich verschleiere im Internet oder z.B. in Usenet Newsgroups seit Jahrzehnten nichts. Da gibt es eine normale gueltige Email Adresse, sodass mich Leute anschreiben koennen. Trotzdem ist das Spam-Aufkommen sehr gering. Dafuer gibt es aber schoene Effekte, wie Emails aus dem Blauen, "Sach ma, bist Du nicht der Typ, der damals ...?"

    73, Joerg, di-dah, di-dah-dah-dah ... :)

  • Trotzdem ist das Spam-Aufkommen sehr gering

    Das liegt auch daran, dass die gute mail Provider heuristisch-trainierte Filter bereitstellen, die viele suspekte Mails von vornherein abweisen oder zumindest kennzeichnen.

    73, de Günter

    "For every complex problem there is an answer that is clear, simple, and wrong" (H.L. Mencken)

  • Moin,

    Hauptproblem eigentlich in allen Foren, eine Mailadresse wird ganz schnell zu einem anklickbaren Link.
    Verschleiert man einfach, ist es schon nicht mehr ein verräterischer Link.
    Damit ist schon viel gewonnen, der Bot interpretiert die Mailadresse dann eher als nichtssagende Textzeile.

    Du unterschätzt die Technik. Scraper arbeiten heute mit heuristischen Methoden und NLP. Texterkennung und Deutung ist heute sehr weit, z.B. bei Papierrechnungen werden per Scan einwandfrei Kontonummern, Adressen und Beträge erkannt und zugeordnet.

    Du nahmst "at" und "äht" zur möglichen Umwandlung, es gibt noch viel mehr Möglichkeiten.
    Der Buchstabe "ä" hat den Vorteil, daß es ihn nur in wenigen Sprachen gibt.
    Heißt im Klartext, der Bot muss schon darauf programmiert sein, gerade deutsche Adressen abzugreifen.
    Ein "ä" wird eher eher nicht mögen, dürfte bei vielen Anbietern von Mailadressen unzulässig sein, Ausschlusskriterium.

    Umlaute in Mailadressen sind sowieso nicht zulässig und das Zeichensatzproblem gibt es schon seit vielen Jahren nicht mehr. Heute ist Unicode der Standard, der enthält alle Sonderzeichen, inkl. diakritischer Zeichen. ISO-8859-1(5), Win-1252 usw. wird fast gar nicht mehr verwendet.

    Es gibt halt Fälle, da will man seine Mailadresse geschickt bekanntgeben.
    Ein Mensch soll die erkennen, deswegen darf es nicht zu kryptisch werden.

    Wenn der Mensch die erkennen kann, dann kann es heute auch eine Software. Pattern Matching, NLP, AI. Mein Beispiel war sehr simpel, nur um zu verdeutlichen, das es kein großes Hinderniss ist. Aber selbst dieses Beispiel findet schon die nach angebenen Schema verschleierten Mailadressen in beliebig großen Texten. Das Schema noch etwas auszubauen in Bezug auf Pattern Matching und NLP ist nur eine Fleißaufgabe.

    Wenn meine Zielgruppe für SPAM alle DARC Mitglieder wären, würde ich das aber viel simpler angehen, als E-Mail Adressen auf Webseiten zu suchen.

    Wir haben in Deutschland Rufzeichen mit DL,DJ,DK,DM,DB,DC,DG,DO und DN (habe ich einen vergessen, ist aber egal fürs Prinzip). Das ergibt mit den Zahlen von 0 bis 9 und einem Suffix von 1 bis 3 Stellen runde 1645020 gültige Rufzeichen. Da DARC Mitglieder meist das Schema CALL@DARC.DE verwenden, hat ein kleines Script die evtl. gültigen Mailadressen sehr schnell erzeugt. Dann schickt man einfach die 1.6 Millionen Mails über ein Botnetz raus und wenn man es ganz genau machen will, wertet man noch die SMTP Fehlermeldungen aus und filtert die ungültigen Adressen. Dann hat man einen Datensatz mit allen gültigen Adressen. Geht schneller und einfacher, als sich Adressen über Webseiten zu suchen.

    Das kann man mit beliebigen Zielgruppen machen, in Unternehmen sind z.B. E-Mail Adressen meist nach <vorname>.<nachname>@<firma> aufgebaut oder in Kombinationen wie <1.Buchstabe Vorname>.<Nachname>@<firma> oder <Nachname>.<Vorname>@<firma>. Unternehmen werden in vielen Branchendatenbanken gelistet, Datenbanken mit Vornamen und Nachnamen gibt es ohne Ende im Netz. Auch hier hat ein kleines Script schnell Millionen von Adressen zusammen gebaut.

    Oder man kauft eine Datenbank mit gültigen Mailadressen.

    Das ist keine Raketentechnik, nichts Neues, alles bekannte Dinge, bringt halt der Job mit sich ;) In Spam-Filtern (RSpamD) gehe ich den Weg praktisch rückwärts und baue Lua Scripts mit Verbindung zur KI von RSpamD zu Abwehr. Wer mal schauen möchte, ob seine E-Mail Adresse in einer der vielen tausenden Datenbanken (wo die Daten oft aus Hacks stammen) enthalten war, kann das hier tun.

    Nebenbei, wir Funkamateure haben den Vorteil, daß wir was mit Telegraphie anfangen können, auch bei Mailadressen.

    73 de -.. .-.. ..--- .--- .- ...

    ChatGPT hat damit überhaupt kein Problem, ist ja nur simples Pattern Matching ;)

    73, Tom

  • Moin,

    Das liegt auch daran, dass die gute mail Provider heuristisch-trainierte Filter bereitstellen, die viele suspekte Mails von vornherein abweisen oder zumindest kennzeichnen.

    da ich zufällig weiß, welchen Provider Joerg benutzt, weiß ich auch (falls er das nicht geändert hat) dass er gar keinen SPAM Filter benutzt.

    Ich nutze den gleichen Provider und Joerg hatte mal dorthin gewechselt. Wobei ich kein Hosting Paket dort habe, sondern einen Root-Server gemietet habe, auf dem ich selbst einen Mailserver betreibe, ich bin damit mein eigener Mailprovider.

    73, Tom

  • Das liegt auch daran, dass die gute mail Provider heuristisch-trainierte Filter bereitstellen, die viele suspekte Mails von vornherein abweisen oder zumindest kennzeichnen.

    73, de Günter

    Naja, ich bekomme wenig Spamnachrichten. Die werden nicht gelöscht, sondern als Spam deklariert, also ich seh schon was ankommt.

    Aber vlt. treibe ich mich ja auf den richtigen Seiten herum :P

    73, Jens

    Telegrafie - die einzige Digitalbetriebsart die Analog besser ist.

  • Naja, ich bekomme wenig Spamnachrichten. Die werden nicht gelöscht, sondern als Spam deklariert, also ich seh schon was ankommt

    Du siehst nur als SPAM deklariert was der mail Provider ankommen lässt. Zumindest von t-online weiß ich, dass die mails ganzer suspekter Blacklist IP-Bereiche erst gar nicht angenommen werden.

    73,de Günter

    "For every complex problem there is an answer that is clear, simple, and wrong" (H.L. Mencken)

  • Das Mails gar nicht erst angenommen werden, das find ich fragwürdig. Wer definiert denn was darf und was nicht?

    73, Jens

    Telegrafie - die einzige Digitalbetriebsart die Analog besser ist.

  • Moin,

    zur Erläuterung, was Günter anmerkt:

    Es gibt verschiedene Verfahren, was die Provider heute als Standard machen:

    • SPF, DKIM und DMARC über (s)DNS, gibt es das nicht werden die Mails gar nicht erst angenommen. SPF ist heute Standard und damit fallen schon viele Bot-Netze raus. DKIM und DMARC gibt es nicht ganz so häufig.
    • rDNS über HELO im SMTP Protokoll, rDNS Einträge haben Clients, die für ein Bot-Netz gekapert wurden, nicht, geht nur mit fester IP Adresse
    • rDNS über die Envelelope Adresse der Mail (das ist nicht die From Zeile, in der man reinschreiben kann, was man will)
    • rDNS über die From Zeile, wird eher selten gemacht, wenn dann erst später, aber nicht im SMTP Dialog, z.B. im Spamfilter
    • SSL/TLS Pflicht, gibt es kein Zertifikat, werden Mails abgelehnt. Das ist noch eher selten.
    • IP Filter, d.h. der Mailserver sieht einen Kontaktversuch gar nicht, weil schon vorher in niedrigern OSI-Layern gefiltert wird.

    Somit fallen ein großer Teil der Spammer schon im SMTP Protokoll auf die Nase, bevor überhaupt Spamfilter, Anhangs-Prüfung, Inhaltsprüfung usw. aktiv werden. Was z.B. bei mir im RSpamD ankommt, hat diese ganzen Prüfungen bereits erfolgreich durchlaufen. Dann wird im RSpamD ebenfalls rejected, nochmals über IP Blacklists, Inhaltsscan der Mail, Absenderadressen, Top Level Domains und einige andere Dinge (bei mir wird alles von outlook.com, hotmail.com und gmail.com abgelehnt). Da habe ich akt. eine hohe Quote. Das ist die Statistik der letzten 12 Tage, d.h. 5660 Mails sind eingegangen und davon wurden 45% sofort abgelehnt. Alle diese Mails sehe ich als Anwender in meinem Postfach gar nicht erst, nur die mit "Rewrite Subject" (Kennung mit "***SPAM*** im Betreff) und "No Action" kommen durch.

    Noch sicherer könnte man das machen, wenn SSL/TLS, SPF, DKIM und DMARC verpflichtend wären. Möchte man seine Mails aber bei den Großen abliefern, dann führt kein Weg an mindestens SPF und rDNS vorbei.

    Anders arbeiten die Mailprovider auch nicht.

    73, Tom

    PS: Viele Fachbegriffe, die findet man aber alle bei Wikipedia oder mit ChatGPT, das ist schon recht komplex.

  • Ich mache mal einen Vergleich!

    Gerade in Städten gibt es immer wieder Rattenprobleme.
    Dürfte klar sein, die sollte man nicht anfüttern, auch nicht ungewollt.
    Müll auf der Straße wie Döner- oder Pommesreste sind offensichtlich.
    Manche Leute werfen gern regelmäßig Essensreste ins Klo.
    Die Ratte in der Kanalisation sucht dann natürlich die Quelle, woher das Nahrungsangebot kommt.
    Das geht dann so weit, daß die Ratte durch das WC in die Wohnung kommt.
    Ratten sind klug, bei Erfolg werden sie es auch bei den anderen Wohnungen versuchen.
    Stellt man kurzfristig das Nahrungsangebot ab, hilft das meist nicht mehr, zu spät.

    So ähnlich kann man sich das mit Mailadressen in Foren vorstellen.
    Legt man unbeabsichtigt einen Köder, werden Bots neugierig.
    Sieht das Nahrungsangebot gut aus, wird der Bot strategisch vorgehen.
    Einige Sachen dazu hat Tom geschrieben, was heute problemlos machbar ist.
    Das ist aber mit Aufwand und Rechenleistung verbunden, Zeit und Geld.
    Anders ausgedrückt, der Bot wird sich Foren suchen, in denen es nach Döner- und Pommesresten riecht.
    Liegt da nur manchmal ein Brotkrümel, sieht es eher nach viel Aufwand und wenig Gewinn aus.

    Das ultimative Kondom, was vor jeder Geschlechtskrankheit schützt, gibt es nicht.
    Regelmäßig und sinnvoll angewendet hilft es jedoch, das Risiko zu minimieren.


    73, Andreas

  • Moin Leute,

    da ich zufällig weiß, welchen Provider Joerg benutzt, weiß ich auch (falls er das nicht geändert hat) dass er gar keinen SPAM Filter benutzt.

    Stimmt. Wobei der Provider manchmal auch Spamcop oder so zu benutzen scheint. Denn ich habe hier Kopien von abgeschmetterten Emails von Leuten, deren Adresse ich in der Whitelist eingetragen habe.

    Zumindest von t-online weiß ich, dass die mails ganzer suspekter Blacklist IP-Bereiche erst gar nicht angenommen werden.

    So isses, und das ist Primitiv-IT. Der Hammer war mal, als vor vielen Jahren T-Online den ganzen AT&T Bereich gesperrt hatte. Da bekam ich etliche dringende Anrufe aus Deutschland, ob ich nicht mal bei US-Firma So-und-so nachhoeren koenne, die Emails kaemen nicht mehr durch. T-Online verlor danach einige Kunden.

    Dies ist ein Grund, warum ich und viele andere Geschaeftsleute Telefax bereithalten. Das funktioniert immer. Email allein ist fuer geschaeftliche Sachen nicht mehr zuverlaessig genug.

    73, Joerg

  • Die Provider haben sich in den ersten Jahren massiv hinter dem "Briefgeheimnis" verschanzt, wenn man sich wegen offensichtlicher Spam beschwert hat. Auch T-Online hat einige Zeit gebraucht, bis die Spam-Last offensichtlich selbst für die Server zu groß wurde. Vor allem, als Flat-Rates eingeführt wurden, für Datenvolumen und Verbindungszeiten, und man nicht mehr mit beidem verdient hat.

    73 Peter

  • Hallo Tom,

    in diesem Thread wurde empfohlen, Mailadressen in Foren zu verschleiern.

    zum Glück gibt es in diesem Forum die Möglichkeit, via "Konservationen" zu kommunizieren. Dadurch besteht keine Notwendigkeit, E-Mail-Adressen im Forum zu posten oder zu verschleiern.

    72/73 de Ingo, DK3RED - Don't forget: the fun is the power!

  • Moin,

    Das ist aber mit Aufwand und Rechenleistung verbunden, Zeit und Geld.

    das ist marginal, denn es geht um mehr. Spam Mails sind nur ein kleiner Teil. Die Mailadressen werden mit anderen Daten zusammengeführt. Kommt eine Mailadresse aus diesem Forum, wird das im Profil "ist Funkamateur" gespeichert. Kauft man in einem Online-Shop mit der gleichen Adresse, ist bei Google angemeldet oder hat noch die gleiche IP Adresse, schaut bei Facebook in die Gruppe irgendeiner Partei - alle diese Daten fließen zusammen und bilden ein Profil und wenn genug Daten zusammen sind, kann man damit eindeutig Personen identifizieren. Ruft man eine Spammail auf und enthält die einen Zählpixel, geht das auch mit ins Profil "hat Mail gelesen" und hat damit einen bestätigten Account. Die Profile bringen richtig Geld, die werden gekauft. Es geht sogar soweit, dass man nur über die Website Firmeninterna erfahren kann, man muss das nur regelmässig machen, so wie David Kriesel es mal mit Spiegel Online vorgeführt hat. Nicht die einzele Mailadresse ist entscheidend, sondern der gesamte vollständige Datensatz mit möglichst vielen Informationen über eine Person. Die Spammails sind da nur ein kleiner Teil von. Deswegen spielt Zeit, Rechenleistung und Geld keine Rolle, weil damit ein Vielfaches an Gewinn gemacht werden kann.

    Anderes Beispiel:

    Du hast das Impressum Deiner Website in einem Bild, mit 'tesseract impdl2jas.gif output' hat man die vollständige Adresse sofort als Text. Was ist das für ein Aufwand, wenn man das automatisiert macht? Der geht gegen 0, dafür hat man die vollständige Adresse, die Mailadresse und die Person dahinter, mit allen Inhalten Deiner Seite, die ausgewertet wird und Dein Profil vervollständigt. Das ist es letztendlich um was es geht, deswegen scheut man auch nicht den Aufwand die verschleierten Mailadressen aus Texten zu extrahieren, denn Text und Adresse zusammen, vielleicht noch eine Website, das Surf-Verhalten - das ist für einige Leute wie Bargeld.

    73, Tom

  • Hi,

    habe mit Interesse mitgelesen. Vielleicht hilft es ja (noch?), wenn man seine Emailadresse als Bilddatei anlegt, dabei aber keine Schriftart verwendet, sondern bspw. mit einer "Sprühpistole" die Buchstaben malt (hier Gimp verwendet). ;)

    Habe es mal probiert, keine fünf Minuten, bin kein Gimp-Experte.


    Nur als Idee, geht bestimmt noch besser.

    72, Ingo.

  • Alle captures können inzwischen von Algorithmen besser gelesen werden, als von Menschen (abgesehen davon, dass nicht alle captures tatsächlich captures sind, anderes Thema). Die Solver werden auch ständig weiterentwickelt, weil ein wirtschaftliches Interesse dahinter steht. Ärgert letztlich nur den Menschen, wo ist denn da noch ein Hydrant/Zebrastreifen/Berg/Brücke/Bus/Mopped/...

    vy73

    Thilo

  • Und jetzt, wo die Big Player alle persönlichen Chats uns Posts als Trainingsdaten für ihre KI verwenden dürfen, wird sich die Erkennungsfähigkeit noch auf ganz andere Algorithmen stützen können. Google und Meta und Microsoft wissen schon Vieles über dich, aber demnächst nahezu alles. Hab gerade gestern gelesen, dass die Windows Copilot+ Recall-Funktion wenn sie auf dem PC aktiviert ist, alle 5 s regelmäßig Screenshots des Bildschirms macht und lokal verschlüsselt zum Training der KI speichert.

    73, de Günter

    "For every complex problem there is an answer that is clear, simple, and wrong" (H.L. Mencken)