Autor Thema: Spider/Bots aussperren?  (Gelesen 1563 mal)

Offline wflamme

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 690
  • Geschlecht: Männlich
  • Irgendwie geht das schon...
    • wflamme
Spider/Bots aussperren?
« am: 26.02.03 - 19:40:15 »
Hallöle!

Wie man in meinem Weblog nachlesen kann, habe ich zunehmende Probleme mit Bots und Spidern .. http://www.sns1.de/partner/flamme/wflamme.nsf/Tag/2003-02-26:BotStopper
 (leider bin ich nicht Herr über diesen Server, also die dort referenzierte Lösung mit htaccess scheidet aus und Servlet-Lösungen kann ich deshalb erstmal auch nicht einsetzen).

Die erste Runde letztes Jahr hatte ich noch gewonnen, indem ich den einschlägigen Bots im Formular immer ein paar kB passthru-HTML-Müll serviert hatte oder mit anderen Q+D-Tricks, siehe unten.
Das möchten deren Parser nicht und ich hatte meine Ruhe, weil sie kaum verwertbare Links fanden.
In letzter Zeit tauchen aber zunehmend aggressivere Varianten auf die sich als Std-Browser ausgeben und entweder über tolerantere Parser zu verfügen scheinen oder mit Brute-Force Ansatz alles, was im Quelltext auch nur halbwegs nach URL aussieht, verfolgen.

Paßt mir gar nicht. Ich würde die gerne mit einem 4xx/5xx-HTTP-Status oder wenigstens leeren Seiten abfertigen, auf jeden Fall mit nichts, was viel Bandbreite braucht.
Leider ist das gar nicht so einfach, denn meine Navigation basiert auf WebQueryOpen-Agenten, die das Formular mit Navigationsdaten füllen. Und der Output dieser Agenten wird verworfen, ebenso der Output von Folgeagenten.
Ich habe also mit dem Agenten keine Kontrolle über die HTTP-Antwort, die hat nur das Form.

Bleibt Hide-When. Aber das ist bei RichText ja immer wieder problematisch. Früher hat's zB noch geholfen, bei Botzugriff JS-Tags um den Body herum einzublenden, dann sahen die Parser das als Script-Sektion. Zieht heute immer seltener..

Welche Möglichkeiten gibt es noch, habe ich was übersehen?
Grüße,
Wolfgang

"I love deadlines. I love the whooshing sound they make as they pass by..."
DOUGLAS ADAMS

wflamme@mainz-online.de
http://www.sns1.de/partner/flamme/wflamme.nsf

Offline ata

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 5.092
  • Geschlecht: Männlich
  • drenaiondrufflos
    • Anton Tauscher Privat
Re:Spider/Bots aussperren?
« Antwort #1 am: 26.02.03 - 20:26:38 »
... mir fällt eigentlich nur JS ein - tut mir sorry - wenn ich es richtig weiss arbeitest du aber ohne...

ata  ::)
Grüßle Toni :)

Offline wflamme

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 690
  • Geschlecht: Männlich
  • Irgendwie geht das schon...
    • wflamme
Re:Spider/Bots aussperren?
« Antwort #2 am: 27.02.03 - 06:27:20 »
Du meinst JS Umleitung auf die eigentlichen Seiten bzw. Seitenaufbau per DOM etc?
Das sperrt auch all Text-Browser und Browser aus, die JS deaktiviert haben und willkommene Suchmaschinen sowiso.

Weiteres Problem mit JS: Einige Bots ziehen und analysieren den gesamten HTML-Source. Du mußt also alle Referenzen  so verschlüsseln, daß der Bot nichts findet bzw daß Du Dir keine neuen Zugriffsversuche einhandelst.
Schwierig..
Grüße,
Wolfgang

"I love deadlines. I love the whooshing sound they make as they pass by..."
DOUGLAS ADAMS

wflamme@mainz-online.de
http://www.sns1.de/partner/flamme/wflamme.nsf

Offline ata

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 5.092
  • Geschlecht: Männlich
  • drenaiondrufflos
    • Anton Tauscher Privat
Re:Spider/Bots aussperren?
« Antwort #3 am: 27.02.03 - 08:16:15 »
... wenn du deine Page in ein Content-System umstellst, dann hast du als Ergebnis eine Version für Text-Browser und eine Version, wenn beim Client aktiviert, JS - und die Möglichkeiten von JS dürften dir ja bekannt sein...

... wer also JS aktiviert hat wird entsprechend umgeleitet zu Seiten, deren Code entsprechend abgeschottet ist - aber dennoch für den Client verfügbar...

ata
Grüßle Toni :)

Offline wflamme

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 690
  • Geschlecht: Männlich
  • Irgendwie geht das schon...
    • wflamme
Re:Spider/Bots aussperren?
« Antwort #4 am: 27.02.03 - 09:46:51 »
Klappt wohl nur dann, wenn die Umleitung in JS entspr. verschlüsselt ist, also das Ziel errechnet wird.
Wie schon gesagt, ich habe hier einige Bots, die suchen auch im Quellcode nach allem, was auch nur ungefähr nach Hyperlink aussieht. Referrer fälschen Sie außerdem noch.

Und dann dabei noch das Problem, *alle* Referenzen dynamisch umrechnen zu müssen, das schließt die Verwendung von R5 Richtext nahezu aus.

Nee, sorry, mit JS komme ich wohl nicht wirklich weiter. Aber vielen Dank für die Hilfe.
Grüße,
Wolfgang

"I love deadlines. I love the whooshing sound they make as they pass by..."
DOUGLAS ADAMS

wflamme@mainz-online.de
http://www.sns1.de/partner/flamme/wflamme.nsf

Offline wflamme

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 690
  • Geschlecht: Männlich
  • Irgendwie geht das schon...
    • wflamme
Re:Spider/Bots aussperren?
« Antwort #5 am: 27.02.03 - 13:45:57 »
Patsch!
Na logo, kommt ein unliebsamer Besucher, dann ruft man einfach im WebQueryOpen einen Agenten auf, den's gar nicht gibt. Und schon sieht der Bösewicht nix mehr vom Inhalt  ;D   8)

agent:=
@If(
   Robot=0;
      "LogAndNav";
   "ThisAgentDoesNotExist");

@Command([ToolsRunMacro]; agent)
Grüße,
Wolfgang

"I love deadlines. I love the whooshing sound they make as they pass by..."
DOUGLAS ADAMS

wflamme@mainz-online.de
http://www.sns1.de/partner/flamme/wflamme.nsf

Offline Rob Green

  • Freund des Hauses!
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 2.651
  • Geschlecht: Männlich
    • Meipor
Re:Spider/Bots aussperren?
« Antwort #6 am: 28.02.03 - 09:11:35 »
doofe Frage aufgrund Deiner Aussage:

Zitat
In letzter Zeit tauchen aber zunehmend aggressivere Varianten auf die sich als Std-Browser ausgeben und entweder über tolerantere Parser zu verfügen scheinen oder mit Brute-Force Ansatz alles, was im Quelltext auch nur halbwegs nach URL aussieht, verfolgen.

Woher weißt Du denn dann ob ein Bot ein Bot ist und kein normaler Besucher?
Vielleicht verdirbt Geld wirklich den Charakter.
Auf keinen Fall aber macht Mangel an Geld ihn besser.
(John Steinbeck)

Meiporblog: http://www.meipor.de/blog
allg. Unternehmerblog: http://www.m-e-x.de/blog

Offline wflamme

  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 690
  • Geschlecht: Männlich
  • Irgendwie geht das schon...
    • wflamme
Re:Spider/Bots aussperren?
« Antwort #7 am: 28.02.03 - 11:18:11 »
Fiel mir auf, daß einer der nächsten Zugriffe auf eine Bildressource ging, die ich im HTML auskommentiert und durch eine andere Grafik ersetzt hatte. Dann habe ich das etwas näher in Augenschein genommen.
Grüße,
Wolfgang

"I love deadlines. I love the whooshing sound they make as they pass by..."
DOUGLAS ADAMS

wflamme@mainz-online.de
http://www.sns1.de/partner/flamme/wflamme.nsf

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz