zurück zur Startseite
  


Zurück XHTMLforum > Webentwicklung (außer XHTML und CSS) > Serveradministration und serverseitige Scripte
Seite neu laden Krieg gegen bots, viele Fragen

Antwort
 
LinkBack Themen-Optionen Ansicht
  #1 (permalink)  
Alt 14.06.2014, 16:29
Benutzer
neuer user
Thread-Ersteller
 
Registriert seit: 22.04.2014
Beiträge: 75
Toro befindet sich auf einem aufstrebenden Ast
Standard Krieg gegen bots, viele Fragen

Krieg gegen bots – ja das Zeug macht mich wahnsinnig, oder sollte ich lieber sagen: Wahnsinnszeug! (?)

Ich hatte bis Ende 2013 eine veraltete joomla-Site, wo ich dann das joomla rausgenommen habe und nur mit einzelnen HTML-Seiten eingesetzt habe, weil meiner Meinung nach joomla ein ‘Overkill’ ist für ein Website mit weniger als 50 Seiten und die ständigen Upgrades von joomla mir auf den Wecker gehen. ( Inzwischen habe ich auch wieder mehr als 50 Seiten aber ich fühl mich mit den HTML-Seiten viel freier, zumindest was Gestaltung anbetrifft ) Bei/während dieser Veränderung habe ich auf einige Seiten neuen Inhalt eingesetzt, zum Teil habe ich Seiten umbenannt (andere URl) und zum teil habe ich einige Seiten ganz gelöscht (URl gelöscht).

Innerhalb von 3 Tagen waren die 404-Fehler dann schon über 1000, verursacht von zu 95% bots (crawlers, spiders, ... ZEUG). Also hab ich im .htaccess unteranderem folgendes gemacht:

1) von alten wichtigen Seiten Umleitung zu neuen wichtigen Seiten, z.B.
Redirect /alte-seite_nr22 http://blahblah/neue-seite_nr7 nicht klicken
Davon hab ich etwa 10 Stück und das funktioniert seitdem richtig.
Frage zu 1): Wann hören die bots auf nach den alten Seiten zu suchen, bzw. wann kann/sollte ich diese redirects entfernen?

2) Alte unwichtige Seiten als “Gone” melden, z.B.
Redirect 410 /alte-seite_nr25
Davon hab ich etwa 25 Stück, es funktioniert auch.
Frage zu 2): Wann verstehen die bots endlich das diese Seiten ‘gone’ (verschwunden) sind und hören auf danach zu suchen?

3) zu 2) dann eine Weiterleitung gelegt auf meine neue sitemap:
ErrorDocument 410 /sitemap.xml
Meine Idee wahr denen beizubringen sich die sitemap anzusehen und nur diese URl zu crawlen. Frage zu 3): Ist mein Denkverhalten hier vielleicht nicht richtig?

4) zu 404-Fehler von alten (nicht mehr existierenden) Bildern – Umleitung auf ein einziges Bild:
RewriteCond %{DOCUMENT_ROOT}%{REQUEST_URI} !-f
RewriteRule \.(gif|jpe?g|png|bmp) /image-error.jpg [NC,L]

Funktioniert auch richtig und das werde ich wohl permanent so lassen. (keine Frage hier)

5) Nun ist ein halbes Jahr Vergangen, die 404-Fehler sind sehr gesunken, aber es gibt immer noch bots die NUR nach alten Seiten suchen (nicht mehr existierende Seiten). Diese bots crawlen nie die neuen Seiten. Die Daten bekomme ich von den Server log-files, da steht dann auch oft dabei welche bots das sind. Bing ist ganz oben auf der Liste der Übeltäter und wenn die nichts besseres zu tun haben, sag ich den ‘Krieg’ an, z.B.
Order Allow,Deny
Deny from 157.55.35.99 (eine single ip)
Deny from 157.55.39. ( von 157.55.39.1 bis 157.55.39.255)
Allow from all

... und beobachte das jetzt. Manche kommen bis zum robots.txt (werden dann wohl vom .htacces blockiert) und verschwinden wieder. Aber andere kommen trotzdem durch, suchen nach alten Seiten, suchen nach alten Bildern etc., aber crawlen keine anderen Seiten. Frage zu 5): Wieso werden die nicht blockiert und kommen durch?
6) Einige bots crawlen ausschließlich NUR nach Bildern. Nun hab ich ja aus der Vergangenheit gelernt was passieren kann wenn so ein Bild dann runtergenommen wird. Obwohl ich ein ‘Ersatz-Bild’ für solche Fälle habe, wie in 4) genannt, find ich diese bots sche..e und sage und versuch auch sie zu bannen mit ip-deny wie in 5). Außerdem hab ich in das robots.txt eingesetzt:
User-agent: *
Disallow: /img
Disallow: /css
Disallow: /js
Allow: /

... und andere files die sie nicht crawlen sollen. Frage zu 6) Wie ist es möglich das trotz ip-deny und robots.txt-deny dieselben robots trotzdem weiterhin NUR Bilder crawlen, und was machen die damit?

Letzte Frage: Allgemein, wenn eine Hohe Anzahl Prozente (11%) der Anfragen in 404-Fehler resultieren, hat das eine Auswirkung auf Searchresults und Ranking, oder mach ich mir da umsonst sorgen ?
Mit Zitat antworten
Sponsored Links
  #2 (permalink)  
Alt 14.06.2014, 22:38
Benutzerbild von inta
free as in freedom
XHTMLforum-Kenner
 
Registriert seit: 04.12.2006
Ort: Berlin
Beiträge: 5.016
inta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz seininta kann auf vieles stolz sein
Standard

zu 1: Nie, solange du den Redirect nicht permanent machst werden sie es vermutlich weiterhin versuchen (default ist 302).

zu 2: Bei einigen Suchmaschinen kannst du Seiten aus dem Index entfernen lassen, vielleicht hilft das.

zu 3: Ich weiß nicht ob es etwas bringt, würde aber vermuten, dass Crawler den Inhalt von Fehlerdokumenten komplett ignorieren.

zu 4: Der Sinn erschließt sich mir nicht.

zu 5: Deine Regel ist etwas seltsam, da du mit „Order Allow,Deny“ den Zugriff grundsätzlich verbietest, dann mit „Allow from all“ wieder erlaubst um dann gezielt wieder IPs auszuschließen. Grundsätzlich müsste das aber trotzdem so funktionieren wie du möchtest. Kommen die Crawler wirklich mit den aufgeführten IPs durch?

zu 6: Die robots.txt ist nicht mehr als eine Empfehlung, kein Crawler ist gezwungen sich daran zu halten. Möglicherweise können sie sogar als Quelle genutzt werden, wo interessante Dinge zu finden sind.
Mit Zitat antworten
Sponsored Links
  #3 (permalink)  
Alt 15.06.2014, 00:47
?!?
XHTMLforum-Kenner
 
Registriert seit: 20.03.2013
Beiträge: 1.638
explanator sorgt für eine eindrucksvolle Atmosphäreexplanator sorgt für eine eindrucksvolle Atmosphäre
Standard

Sperr doch einfach alle bots aus.
__________________
"Wieso ist der Code schrott, ich dachte hier seien Profis..."
Aus einem Forum.
Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
FAQ -- Häufig gestellte Fragen und häufig gegebene Antworten mazzo CSS 10 05.04.2012 18:32
Fragen über Fragen - Anfänger Anfaenger110 (X)HTML 15 04.01.2009 17:05
Fragen über Fragen jules CSS 5 09.10.2008 16:21
Erfahrungen mit bösen Bots und XSS hemfrie Offtopic 11 09.04.2008 01:13
utf8 Fragen und Probleme lewian (X)HTML 11 07.09.2005 02:47


Alle Zeitangaben in WEZ +2. Es ist jetzt 12:37 Uhr.