zurück zur Startseite
  


Zurück XHTMLforum > Sonstiges > Offtopic
Seite neu laden Frage: Eigenes CMS mit hidden page, was machen Crawler?

Antwort
 
LinkBack Themen-Optionen Ansicht
  #1 (permalink)  
Alt 20.03.2011, 17:28
Benutzerbild von laborix
Erfahrener Benutzer
XHTMLforum-Kenner
Thread-Ersteller
 
Registriert seit: 11.12.2005
Beiträge: 1.494
laborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Mensch
Standard Frage: Eigenes CMS mit hidden page, was machen Crawler?

Hallo miteinander,

in einem CMS-System (mein eigenes) kann man eine Inhaltsseite in der Navigation verstecken/unsichtbar machen. Diese Inhaltsseite kann man, wenn man weiss wie die URL lautet, aufrufen und sich ansehen. Es existiert kein Link innerhalb des CMS-Systemes auf diese einzelne versteckte/unsichtbare Inhaltsseite. Auch von extern gibt es keinen Link auf diese Inhaltsseite.

Mir geht es darum, diese Methode zu verstehen. Hintergedanke ist, interne nur mir bekannte Testcases für Browser Tests über solche Inhaltsseiten zu realisieren. Wenn diese dann funktionieren, kommt der Haken bei versteckt/unsichtbar weg und die Inhaltsseite ist danach öffentlich. Oder einen Seitenentwurf abzulegen und nach mehreren Korrekturen veröffentlichen.

Hat jemand Erfahrung, ob solche in der Navigation versteckten/unsichtbaren Inhaltsseiten auf den Index in Suchmaschinen kommen, wenn das CMS-System regelmäßig gecrawlt wird?
__________________
Personal stuff
Mit Zitat antworten
Sponsored Links
  #2 (permalink)  
Alt 20.03.2011, 17:57
Benutzerbild von Praktikant
Semantikbremse.
XHTMLforum-Kenner
 
Registriert seit: 22.04.2008
Beiträge: 4.985
Praktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz sein
Standard

Google und co crawlen, wenn überhaupt, nur Nameserver. Die Domains, die dann gefunden werden werden aufgerufen und in den Index gesetzt. Wird eine Domain alle über Links erreichbaren Seiten werden natürlich auch indexiert.

Wenn eine Seite nicht in der Navigation ist, dann wird sie nicht indexiert. Allerdings gibt Chrome und ich glaube auch die Google ToolBar Informationen an Google weiter. Somit können dann auch Testseiten in den Index bekommen.

Du kannst das aber mit einer robots.txt verhindern.
__________________
Rettet die Erde.... sie ist der einzige Planet mit Schokolade!
Mit Zitat antworten
Sponsored Links
  #3 (permalink)  
Alt 20.03.2011, 19:36
Benutzerbild von laborix
Erfahrener Benutzer
XHTMLforum-Kenner
Thread-Ersteller
 
Registriert seit: 11.12.2005
Beiträge: 1.494
laborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Mensch
Standard

Zitat:
Zitat von Praktikant Beitrag anzeigen
... Wenn eine Seite nicht in der Navigation ist, dann wird sie nicht indexiert. ...
Schon praktische Erfahrungen damit?

Zitat:
Zitat von Praktikant Beitrag anzeigen
... Allerdings gibt Chrome und ich glaube auch die Google ToolBar Informationen an Google weiter. Somit können dann auch Testseiten in den Index bekommen. ...
Vermutung oder Wissen?

Prinzipiell geht es mir darum, ob ich Testcases oder Entwürfe ohne große Bedenken machen kann. Wenn ich diese Seiten dann für gut befinde, sollen sie auf den Index. Aber nur über die CMS-Administration durch Entfernen des Hakens versteckt/unsichtbar und nicht noch zusätzlich durch manuelles Bearbeiten der robots.txt
__________________
Personal stuff
Mit Zitat antworten
  #4 (permalink)  
Alt 21.03.2011, 05:06
Erfahrener Benutzer
XHTMLforum-Mitglied
 
Registriert seit: 28.01.2011
Beiträge: 338
Webcoder sorgt für eine eindrucksvolle AtmosphäreWebcoder sorgt für eine eindrucksvolle Atmosphäre
Standard

Hi laborix

Meine Erfahrungen mit Google sind leider ganz andere. Es wird alles indexiert was irgendwie gefunden wird. Und leider löscht Google auch so schnell nix aus dem Index heraus, selbst wenn es über eine robot.txt gesperrt wurde.

Zur Lösung deines Problems sehe ich 2 Wege.

Weg 1:
Du arbeitest mit Meta-Tags, welche die Indexierung verhindern (siehe Selfhtml). Wobei ich mir nicht sicher bin, dass diese Methode 100%ig sicher ist. Die Umsetzung kann über einen Parameter aus der Datenbank in Verbindung mit PHP erfolgen.

Weg 2:
Du prüfst über Session ob der Besucher ein Mod oder Admin ist und gibst nur dann die Seite aus. Andernfalls wird die Fehlerseite ausgegeben. Somit ist die Seite nicht im Netz und kann auch nicht indexiert werden. Diese Methode scheint mir sicherer zu sein.


Es gibt bestimmt auch ein Weg über die robot.txt eine Indexierung zu verhindern, nur wird der wohl nicht so ganz einfach. Entweder müsstest du die robot.txt jedes Mal umschreiben, was wohl automatisch über ein PHP-Script möglich aber ziemlich aufwendig sein dürfte.

Oder der Link zur Seite beinhaltet einen extra Ordner in Namen der im PHP abgefangen und ausgewertet wird. Also sowas (http://deine-domain.TLD/Testcase/seite), wobei der Ordner Testcase nicht existieren muss. Trotzdem könntest du dann den Ordner in der robot.txt für Indexierung sperren. Nach Freigabe würde sich der Link zur Seite dann ändern, etwa so (http://deine-domain.TLD/Webseiten/seite).


Ich hoffe du findest ein paar hilfreiche Anregungen in der Antwort.


Mit freundlichem Gruß
Webcoder


PS: Frage an den Admin, lässt sich die automatische Umwandlung der angegeben Beispieldomains irgendwie verhindern?
__________________
Websites erstellen ist ein Hobby von mir.

Geändert von Webcoder (21.03.2011 um 18:08 Uhr)
Mit Zitat antworten
  #5 (permalink)  
Alt 21.03.2011, 10:35
Benutzerbild von Praktikant
Semantikbremse.
XHTMLforum-Kenner
 
Registriert seit: 22.04.2008
Beiträge: 4.985
Praktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz sein
Standard

Ich habe selber nur Erfahrungen damit gemacht einen Ordner zu sperren, der immer extiert. Wir haben eine Art "Vorschau-Ordner", in dem wir für Kunden selber entwickeln. Dieser ist per robots.txt gesperrt und das funktioniert auch gut, ist aber eben ein statisches Verzeichnes.

Zitat:
Zitat von Webcoder Beitrag anzeigen
PS: Frage an den Admin, lässt sich die automatische Umwandlung der angegeben Beispieldomains irgendwie verhindern?
Ich bin zwar nicht der Admin, aber ich weiß wie es geht
Unter "Zusätzliche Einstellungen" gibt es in "Verschiedene Einstellungen" eine Checkbox, die das macht. Ist der Hacken bei "Bei externen Links den Seitentitel der Zielseite als Linktext verwenden." nicht gesetzt, dann wird das nicht gewandelt
__________________
Rettet die Erde.... sie ist der einzige Planet mit Schokolade!
Mit Zitat antworten
  #6 (permalink)  
Alt 21.03.2011, 18:11
Erfahrener Benutzer
XHTMLforum-Mitglied
 
Registriert seit: 28.01.2011
Beiträge: 338
Webcoder sorgt für eine eindrucksvolle AtmosphäreWebcoder sorgt für eine eindrucksvolle Atmosphäre
Standard

Zitat:
Zitat von Praktikant Beitrag anzeigen
Ich bin zwar nicht der Admin, aber ich weiß wie es geht
Unter "Zusätzliche Einstellungen" gibt es in "Verschiedene Einstellungen" eine Checkbox, die das macht. Ist der Hacken bei "Bei externen Links den Seitentitel der Zielseite als Linktext verwenden." nicht gesetzt, dann wird das nicht gewandelt
Danke für den Tipp, hab es geändert. Wobei man die Einstellungen wohl für jeden Post vornehmen muss.
__________________
Websites erstellen ist ein Hobby von mir.
Mit Zitat antworten
  #7 (permalink)  
Alt 21.03.2011, 18:45
Benutzerbild von Praktikant
Semantikbremse.
XHTMLforum-Kenner
 
Registriert seit: 22.04.2008
Beiträge: 4.985
Praktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz seinPraktikant kann auf vieles stolz sein
Standard

Zitat:
Zitat von Webcoder Beitrag anzeigen
Danke für den Tipp, hab es geändert. Wobei man die Einstellungen wohl für jeden Post vornehmen muss.
Ja, das ist anscheinend wirklich so.... Zumindest kann ich im Kontrollzentrum nichts entsprechendes finden.
__________________
Rettet die Erde.... sie ist der einzige Planet mit Schokolade!
Mit Zitat antworten
  #8 (permalink)  
Alt 21.03.2011, 20:04
Benutzerbild von laborix
Erfahrener Benutzer
XHTMLforum-Kenner
Thread-Ersteller
 
Registriert seit: 11.12.2005
Beiträge: 1.494
laborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Menschlaborix ist ein sehr geschätzer Mensch
Standard

So, ich habe gestern Abend eine relativ stabile Fassung meines CMS-System ins Netz gestellt und werde mit einem (relativ unwichtigen) Live-System Erfahrungen sammeln. Die Seite wird regelmäßig gecrawlt und zwischendurch auch mal von experimentierfreudigen Script-/URL Manipulations (spider?/bots?)/Script Kiddies? besucht.

Ich lasse mich jetzt einfach mal überraschen
__________________
Personal stuff
Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Anpassen eines CSS Templates - JPEG als Hintergrundbild setzen soulknot CSS 1 08.05.2011 17:31
CMS Frage Baracudagirl Serveradministration und serverseitige Scripte 5 25.01.2010 09:47
Eigenes CMS erstellen philosapiens Serveradministration und serverseitige Scripte 2 22.11.2009 13:54
CMS oder nicht? Das ist hier die Frage. Geronimo Serveradministration und serverseitige Scripte 11 20.03.2009 17:45


Alle Zeitangaben in WEZ +2. Es ist jetzt 03:26 Uhr.