|
|||
Krieg gegen bots, viele Fragen
Krieg gegen bots – ja das Zeug macht mich wahnsinnig, oder sollte ich lieber sagen: Wahnsinnszeug! (?)
Ich hatte bis Ende 2013 eine veraltete joomla-Site, wo ich dann das joomla rausgenommen habe und nur mit einzelnen HTML-Seiten eingesetzt habe, weil meiner Meinung nach joomla ein ‘Overkill’ ist für ein Website mit weniger als 50 Seiten und die ständigen Upgrades von joomla mir auf den Wecker gehen. ( Inzwischen habe ich auch wieder mehr als 50 Seiten aber ich fühl mich mit den HTML-Seiten viel freier, zumindest was Gestaltung anbetrifft ) Bei/während dieser Veränderung habe ich auf einige Seiten neuen Inhalt eingesetzt, zum Teil habe ich Seiten umbenannt (andere URl) und zum teil habe ich einige Seiten ganz gelöscht (URl gelöscht). Innerhalb von 3 Tagen waren die 404-Fehler dann schon über 1000, verursacht von zu 95% bots (crawlers, spiders, ... ZEUG). Also hab ich im .htaccess unteranderem folgendes gemacht: 1) von alten wichtigen Seiten Umleitung zu neuen wichtigen Seiten, z.B. Redirect /alte-seite_nr22 http://blahblah/neue-seite_nr7 nicht klicken Davon hab ich etwa 10 Stück und das funktioniert seitdem richtig. Frage zu 1): Wann hören die bots auf nach den alten Seiten zu suchen, bzw. wann kann/sollte ich diese redirects entfernen? 2) Alte unwichtige Seiten als “Gone” melden, z.B. Redirect 410 /alte-seite_nr25 Davon hab ich etwa 25 Stück, es funktioniert auch. Frage zu 2): Wann verstehen die bots endlich das diese Seiten ‘gone’ (verschwunden) sind und hören auf danach zu suchen? 3) zu 2) dann eine Weiterleitung gelegt auf meine neue sitemap: ErrorDocument 410 /sitemap.xml Meine Idee wahr denen beizubringen sich die sitemap anzusehen und nur diese URl zu crawlen. Frage zu 3): Ist mein Denkverhalten hier vielleicht nicht richtig? 4) zu 404-Fehler von alten (nicht mehr existierenden) Bildern – Umleitung auf ein einziges Bild: RewriteCond %{DOCUMENT_ROOT}%{REQUEST_URI} !-f RewriteRule \.(gif|jpe?g|png|bmp) /image-error.jpg [NC,L] Funktioniert auch richtig und das werde ich wohl permanent so lassen. (keine Frage hier) 5) Nun ist ein halbes Jahr Vergangen, die 404-Fehler sind sehr gesunken, aber es gibt immer noch bots die NUR nach alten Seiten suchen (nicht mehr existierende Seiten). Diese bots crawlen nie die neuen Seiten. Die Daten bekomme ich von den Server log-files, da steht dann auch oft dabei welche bots das sind. Bing ist ganz oben auf der Liste der Übeltäter und wenn die nichts besseres zu tun haben, sag ich den ‘Krieg’ an, z.B. Order Allow,Deny Deny from 157.55.35.99 (eine single ip) Deny from 157.55.39. ( von 157.55.39.1 bis 157.55.39.255) Allow from all ... und beobachte das jetzt. Manche kommen bis zum robots.txt (werden dann wohl vom .htacces blockiert) und verschwinden wieder. Aber andere kommen trotzdem durch, suchen nach alten Seiten, suchen nach alten Bildern etc., aber crawlen keine anderen Seiten. Frage zu 5): Wieso werden die nicht blockiert und kommen durch? 6) Einige bots crawlen ausschließlich NUR nach Bildern. Nun hab ich ja aus der Vergangenheit gelernt was passieren kann wenn so ein Bild dann runtergenommen wird. Obwohl ich ein ‘Ersatz-Bild’ für solche Fälle habe, wie in 4) genannt, find ich diese bots sche..e und sage und versuch auch sie zu bannen mit ip-deny wie in 5). Außerdem hab ich in das robots.txt eingesetzt: User-agent: * Disallow: /img Disallow: /css Disallow: /js Allow: / ... und andere files die sie nicht crawlen sollen. Frage zu 6) Wie ist es möglich das trotz ip-deny und robots.txt-deny dieselben robots trotzdem weiterhin NUR Bilder crawlen, und was machen die damit? Letzte Frage: Allgemein, wenn eine Hohe Anzahl Prozente (11%) der Anfragen in 404-Fehler resultieren, hat das eine Auswirkung auf Searchresults und Ranking, oder mach ich mir da umsonst sorgen ? |
Sponsored Links |
|
||||
zu 1: Nie, solange du den Redirect nicht permanent machst werden sie es vermutlich weiterhin versuchen (default ist 302).
zu 2: Bei einigen Suchmaschinen kannst du Seiten aus dem Index entfernen lassen, vielleicht hilft das. zu 3: Ich weiß nicht ob es etwas bringt, würde aber vermuten, dass Crawler den Inhalt von Fehlerdokumenten komplett ignorieren. zu 4: Der Sinn erschließt sich mir nicht. zu 5: Deine Regel ist etwas seltsam, da du mit „Order Allow,Deny“ den Zugriff grundsätzlich verbietest, dann mit „Allow from all“ wieder erlaubst um dann gezielt wieder IPs auszuschließen. Grundsätzlich müsste das aber trotzdem so funktionieren wie du möchtest. Kommen die Crawler wirklich mit den aufgeführten IPs durch? zu 6: Die robots.txt ist nicht mehr als eine Empfehlung, kein Crawler ist gezwungen sich daran zu halten. Möglicherweise können sie sogar als Quelle genutzt werden, wo interessante Dinge zu finden sind. |
Sponsored Links |
Themen-Optionen | |
Ansicht | |
|
|
Ähnliche Themen | ||||
Thema | Autor | Forum | Antworten | Letzter Beitrag |
FAQ -- Häufig gestellte Fragen und häufig gegebene Antworten | mazzo | CSS | 10 | 05.04.2012 18:32 |
Fragen über Fragen - Anfänger | Anfaenger110 | (X)HTML | 15 | 04.01.2009 17:05 |
Fragen über Fragen | jules | CSS | 5 | 09.10.2008 16:21 |
Erfahrungen mit bösen Bots und XSS | hemfrie | Offtopic | 11 | 09.04.2008 01:13 |
utf8 Fragen und Probleme | lewian | (X)HTML | 11 | 07.09.2005 02:47 |