Einzelnen Beitrag anzeigen
  #4 (permalink)  
Alt 22.12.2009, 21:49
S!mon S!mon ist offline
Form follows function
neuer user
 
Registriert seit: 08.03.2009
Ort: Berlin
Beiträge: 92
S!mon befindet sich auf einem aufstrebenden Ast
Standard

Hallo,

dein robots.txt ist meiner Meinung nach richtig um das Crawlen zu verhindern.
Der google-bot wird immer wieder vorbeischaun um die robots.txt auszulesen und ggf. Unterseiten zu crawlen.
Ich denke hier liegt das Missverständnis - der Bot kommt immer wieder um zu schauen ob sich was verändert hat - in deinem Fall eben nur die robots.txt.
Das er die Domain gar nicht mehr ansteuert kannst du nicht verhindern.

Um ganz sicher zu gehen kannst du mit einem 403er (also Not Allowed und das eben eingeschränkt auf die IP-Ranges von google oder auf den User-Agent vom google-bot) arbeiten.


Hinzu kommt, dass sich einmal indizierte Seiten nicht so leicht wieder aus dem Index löschen lassen. Man brauch nur mal beobachten nach wie viel Jahren die Bots noch Seiten crawlen wollen die 404 oder 410 sind.
Im google webmaster-tools gibt es unter Website-Konfiguration -> Crawler-Zugriff die Option Seite löschen - allerdings klappt das auch nicht immer.


Grüße Simon
Mit Zitat antworten