Das Notes Forum

Domino 9 und frühere Versionen => ND6: Entwicklung => Thema gestartet von: NilsLHH am 12.03.13 - 09:34:41

Titel: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: NilsLHH am 12.03.13 - 09:34:41
Hallo liebe Experten,

das Thema passt nicht 100%tig unter Entwicklung, aber reine Administration ist es auch nicht.
Der Domino-Server ist hier abweichend von meiner Signatur die Version 6.5.5

Folgende Situation:
wir haben eine Web-Anwendung, basiserend auf 2 Notes-Datenbanken, zu finden unter:
https://e-government.hannover-stadt.de/lhhsimwebre.nsf (https://e-government.hannover-stadt.de/lhhsimwebre.nsf)

Es handelt sich hier um die Recherche von Sitzungen unseres Stadtrats und seiner Ausschüsse.

Die Seiten werden vom Googlebot indiziert. Hierbei tritt nun regelmässig der HTTP-Fehler 500 auf. Die Inhalte können zwar in der Google-Suche gefunden werden und die Anwendung läuft auch stabil; nur die bis zu 1000 Fehlermeldungen pro Tag spammen das Log voll.

Der Fehler tritt vor allem auf den Terminseiten auf, z.B.:
https://e-government.hannover-stadt.de/lhhsimwebre.nsf/TM/20031117_ASozial (https://e-government.hannover-stadt.de/lhhsimwebre.nsf/TM/20031117_ASozial)

Der Googlebot versucht nun immer wieder URL aufzurufen, die aus der Domino-generierten _doClick-Funktion stammen, z.B.:

Code
GET /lhhsimwebre.nsf/TM/20031117_ASozial!OpenDocument&Click=C1256CD4003E5929.f8e5623a1bef3346c1256cbf002ad608/$Body/0.2136

Ich hatte nun alle Masken nach Schaltflächen/Hotspots durchsucht, die diese _doClick-Funktion verwenden. Es gab hier einige "unsichtbare" Hotspots, die anscheinend aus früheren Entwicklungsständen übrig geblieben sind. Diese habe ich bereinigt und in den betreffenden HTML-Quellcode der Masken kommt - ausser im head - keine _doClick-Funktion mehr vor.

Von daher dürfte der Googlebot keine Links in der o.g. Form mehr finden. Aber die Aufrufe mit Fehler 500 bestehen weiterhin.

Ich bin jetzt ziemlich am verzweifeln, weil ich keine Idee mehr habe, wo der Googlebot die URLs hernimmt.
Würde er es aus der _doClick-Funktion im Head nehmen, wo nimmt er den Wert hinter Click her ?
Aufrufe von aussen können es eigentlich auch nicht sein, weil spätestens seit dieser Woche keine Hotspots mehr drin sind bzw. in der Vergangenheit auch nicht sichtbar waren, die jemand verlinken könnte.

Abschalten der Datenbankoption "JavaScript beim Erstellen von Seiten verwenden" würde die _doClick-Funktion zwar entfernen; nur muss ich dann unsere Suchseite entsprechend anpassen, was bisher nicht so einfach ohne die Domino-Funktionalistät ist.


Ich hoffe, irgendwer von Euch hat eine Lösung parat.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: mezz am 12.03.13 - 11:52:28
Das hilft dir jetzt nicht unbedingt weiter aber einen derart alten Server ins Internet zu hängen ist
eine sehr schlechte Idee.  Nur mal so als Beispiel: CVE-2008-2240 (http://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2008-2240)

Die Ursache könnte übrigends auch Extern liegen, wenn z.b. auf einen solchen Link von irgendeiner anderen Seite verwiesen wird und der Crawler darüber auf deine Seite kommt. Ggf. kann es hier helfen mal die Referer anzuschauen.
Ansonsten kannst du versuchen mittels Robots.txt von der Indizierung auszunehmen (die entsprechenden Resourcen würden dann natürlich nicht mehr per Google Suche gefunden werden) oder auch per Websiteregel einen Redirekt für diese Requests machen.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: NilsLHH am 12.03.13 - 13:35:02
Ja, der Server soll auch noch dieses Jahr ersetzt werden; aber ich bin kein Administrator und das ist auch nicht das Thema.

Bezüglich der Links von ausserhalb: wie schon gesagt eher unwahrscheinlich, weil diese !OpenDocument&Click=...  - URLs nirgends mehr drin standen und es passiert auch bei neuen Seiten (hier: neue Termine).

Robots.txt bringt auch nicht wirklich was, weil man dort ja nur Seiten ausnehmen kann und nicht Teile der URL; bis zum !OpenDocument ist das ja eine gültige und auch erfolgreich aufrufbare Seite.
Eine Ersetzungsregel wäre vielleicht noch eine Möglichkeit, aber bei den variablen Teilen auch schwierig.

Außerdem wüsste ich gern die Ursache des ganzen; die muss ja noch irgendwie im Quelltext liegen.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: m3 am 12.03.13 - 14:05:54
Der Google Bot merkt sich auch URLs und probiert die immer wieder, selbst wenn Du den Code bereits aufgeraeumt hast.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: NilsLHH am 14.03.13 - 08:28:34
Kann es eigentlich nicht sein, weil auch neue Seiten (bzw. neue Dokumente) betrifft und dieser _doClick-Link eigentlich auch nie sichtbar war, dass irgendwer es verlinken könnte.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: NilsLHH am 15.03.13 - 14:42:12
Habe jetzt mal die DB-Eigenschaft 'JavaScript beim Erstellen von Seiten verwenden' herausgenommen, damit die unnützen _doClick-Funktionen verschwinden.

Mal beobachten, was der Googlebot dazu sagt.
Titel: Re: Fehler 500 bei Aufrufen durch Googlebot
Beitrag von: NilsLHH am 18.03.13 - 15:13:13
Es scheint tatsächlich zu helfen. Diese OpenDocument&Click-URLs kommen - bis auf wenige offensichtlich alte URLs - nicht mehr vor.

Der Googlebot scheint Javascript auch auszuwerten, wenn er es gar nicht ausführen dürfte.
Wobei dabei nicht erkennbar ist, wie er an den Wert hinter Click kommt.