Hallöle!
Wie man in meinem Weblog nachlesen kann, habe ich zunehmende Probleme mit Bots und Spidern ..
http://www.sns1.de/partner/flamme/wflamme.nsf/Tag/2003-02-26:BotStopper (leider bin ich nicht Herr über diesen Server, also die dort referenzierte Lösung mit htaccess scheidet aus und Servlet-Lösungen kann ich deshalb erstmal auch nicht einsetzen).
Die erste Runde letztes Jahr hatte ich noch gewonnen, indem ich den einschlägigen Bots im Formular immer ein paar kB passthru-HTML-Müll serviert hatte oder mit anderen Q+D-Tricks, siehe unten.
Das möchten deren Parser nicht und ich hatte meine Ruhe, weil sie kaum verwertbare Links fanden.
In letzter Zeit tauchen aber zunehmend aggressivere Varianten auf die sich als Std-Browser ausgeben und entweder über tolerantere Parser zu verfügen scheinen oder mit Brute-Force Ansatz alles, was im Quelltext auch nur halbwegs nach URL aussieht, verfolgen.
Paßt mir gar nicht. Ich würde die gerne mit einem 4xx/5xx-HTTP-Status oder wenigstens leeren Seiten abfertigen, auf jeden Fall mit nichts, was viel Bandbreite braucht.
Leider ist das gar nicht so einfach, denn meine Navigation basiert auf WebQueryOpen-Agenten, die das Formular mit Navigationsdaten füllen. Und der Output dieser Agenten wird verworfen, ebenso der Output von Folgeagenten.
Ich habe also mit dem Agenten keine Kontrolle über die HTTP-Antwort, die hat nur das Form.
Bleibt Hide-When. Aber das ist bei RichText ja immer wieder problematisch. Früher hat's zB noch geholfen, bei Botzugriff JS-Tags um den Body herum einzublenden, dann sahen die Parser das als Script-Sektion. Zieht heute immer seltener..
Welche Möglichkeiten gibt es noch, habe ich was übersehen?