Eine "robots.txt"-Datei schränkt den Zugriff auf Ihre Website für Suchmaschinenrobots ein, die das Web crawlen. Robots sind automatisierte Systeme, die vor dem Zugriff auf die Seiten einer Website prüfen, ob der Zugriff auf bestimmte Seiten möglicherweise durch die Datei "robots.txt" gesperrt ist. Die in der "robots.txt"-Datei festgelegten Anweisungen werden von allen seriösen Robots unterstützt. Einige können sie allerdings unterschiedlich interpretieren. Die Beachtung einer robots.txt-Datei ist jedoch nicht lückenlos durchsetzbar, sodass sie von Spammern und anderen Störenfrieden gelegentlich ignoriert wird. Deshalb empfehlen wir Ihnen, vertrauliche Informationen mit einem Passwort zu schützen.
Wenn Sie sehen möchten, welche URLs für das Crawlen durch Google blockiert wurden, öffnen Sie in den Webmaster-Tools im Abschnitt Status die Seite Blockierte URLs.
Sie benötigen die Datei "robots.txt" nur, wenn Ihre Website Content enthält, der nicht von den Suchmaschinen indexiert werden soll. Falls Ihre gesamte Website in die Suchmaschinen-Indizes aufgenommen werden soll, können Sie auf die Datei "robots.txt" verzichten.
Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden.
Zum Verwenden einer "robots.txt"-Datei benötigen Sie Zugriff auf das Stammverzeichnis Ihrer Domain. Wenden Sie sich im Zweifelsfall an Ihren Webhosting-Anbieter. Falls Sie keinen Zugriff auf das Stammverzeichnis einer Domain haben, können Sie den Zugriff über das Robots-Meta-Tag einschränken.
robots.txt-Datei erstellen
Die einfachste "robots.txt"-Datei enthält nur zwei Regeln:
- User-agent: Der Suchroboter, für den die folgende Regel gilt
- Disallow: Die URL, die blockiert werden soll
Diese beiden Zeilen werden als einzelner Eintrag in der Datei betrachtet. Sie können beliebig viele Einträge aufnehmen. Ein Eintrag kann auch mehrere "Disallow"-Zeilen und mehrere User-Agents umfassen.
Jeder Abschnitt der Datei "robots.txt" ist eigenständig und baut nicht auf vorherigen Abschnitten auf. Einige Beispiele dafür:
User-agent: * Disallow: /ordner1/ User-Agent: Googlebot Disallow: /ordner2/
In diesem Beispiel wären nur URLs, die /ordner2/ enthalten, für den Googlebot unzulässig.
User-Agents und Such-Robots
Ein User-Agent ist ein bestimmter Suchmaschinenrobot. In der Web Robots Database (Datenbank für Suchrobots) sind die am häufigsten verwendeten Suchrobots aufgeführt. Sie können in einem Eintrag auf einen bestimmten Suchrobot verweisen (durch Angabe des Namens) oder alle Robots einbeziehen (durch ein Sternchen). Ein Eintrag für alle Suchrobots sieht folgendermaßen aus:
User-agent: *
Google verwendet verschiedene Suchrobots (User-Agents). Der für unsere Websuche zuständige Robot heißt Googlebot. Unsere anderen Suchrobots wie Googlebot-Mobile und Googlebot-Image folgen ebenfalls den Regeln für den Googlebot. Sie können jedoch für diese Robots zusätzliche individuelle Regeln festlegen.
Blockieren von User-Agents
In der Zeile "Disallow" werden die zu blockierenden Seiten aufgelistet. Sie können eine spezifische URL angeben oder ein Muster verwenden. Der Eintrag muss mit einem Schrägstrich (/) beginnen.
- Blockieren der gesamten Website: Tragen Sie nur einen Schrägstrich ein.
Disallow: /
- Blockieren eines Verzeichnisses und seines Inhalts: Geben Sie den Verzeichnisnamen gefolgt von einem Schrägstrich an.
Disallow: /junk-verzeichnis/
- Blockieren einer Seite: Geben Sie die Seite an.
Disallow: /private_datei.html
- Entfernen eines bestimmten Bildes aus Google Bilder: Fügen Sie folgende Angaben hinzu:
User-Agent: Googlebot-Image Disallow: /bilder/hunde.jpg
- Alle Bilder auf Ihrer Website aus Google Bilder entfernen:
User-Agent: Googlebot-Image Disallow: /
- Alle Dateien eines bestimmten Dateityps (z. B. .gif) blockieren: Verwenden Sie den folgenden Eintrag:
User-agent: Googlebot Disallow: /*.gif$
- Blockieren des Crawlens von Seiten Ihrer Website, aber Schaltung von AdSense-Anzeigen auf diesen Seiten: Schließen Sie alle Suchrobots außer "Mediapartners-Google" aus. Die Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Suchroboter "Mediapartners-Google" analysiert, um zu bestimmen, welche Anzeigen geschaltet werden. Der Suchroboter "Mediapartners-Google" gibt keine Seiten an andere Google-User-Agents weiter. Beispiel:
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Bei Anweisungen wird die Groß-/Kleinschreibung berücksichtigt. Beispielsweise wird mit der Anweisung Disallow: /junk_file.asp zwar die URL "http://www.example.com/junk_file.asp" blockiert, die URL "http://www.example.com/Junk_file.asp" jedoch zugelassen. Der Googlebot ignoriert Leerräume (insbesondere leere Zeilen) sowie unbekannte Anweisungen in der "robots.txt"-Datei.
Der Googlebot unterstützt die Übermittlung von XML-Sitemap-Dateien über die "robots.txt"-Datei.
Suchmuster für Robots
Der Googlebot respektiert bestimmte Suchmuster. Dies gilt jedoch nicht für alle Suchmaschinen.
- Sternchen (*) als Platzhalter für eine Zeichenfolge verwenden: Mit der folgenden Anweisung können Sie beispielsweise den Zugriff auf alle Unterverzeichnisse sperren, die mit dem Wort "privat" beginnen:
User-agent: Googlebot Disallow: /privat*/
- Blockieren des Zugriffs auf alle URLs, die ein Fragezeichen (?) enthalten (d. h. das Crawlen aller URLs, die mit dem Namen Ihrer Domain beginnen, auf den dann eine beliebige Zeichenfolge, ein Fragezeichen und dann wieder eine Zeichenfolge folgen):
User-agent: Googlebot Disallow: /*?
- Abgleichen mit dem Ende einer URL: Verwenden Sie das Dollar-Zeichen ($). Mit der folgenden Anweisung können Sie beispielsweise den Zugriff auf alle URLs sperren, die mit ".xls" enden:
User-agent: Googlebot Disallow: /*.xls$
Der Musterabgleich lässt sich auch in Kombination mit der "Allow"-Anweisung einsetzen. Beispiel: Wenn das Fragezeichen (?) für eine Sitzungs-ID steht, können Sie alle URLs mit diesem Zeichen sperren, damit der Googlebot keine identischen Seiten durchsucht. Möglicherweise bezeichnen jedoch URLs, die mit einem Fragezeichen (?) enden, die Version einer Seite, die einbezogen werden soll. In diesem Fall können Sie Folgendes in Ihrer Datei "robots.txt" angeben:
User-agent: * Allow: /*?$ Disallow: /*?
Die Anweisung Disallow:/ *? blockiert alle URLs, die ein Fragezeichen enthalten. Genauer gesagt, sie blockiert alle URLs, die mit dem Namen Ihrer Domain beginnen, gefolgt von einer beliebigen Zeichenfolge, dann einem Fragezeichen und dann wieder einer Zeichenfolge.
Die Anweisung Allow: /*?$ lässt dagegen alle URLs zu, die mit einem Fragezeichen enden. Genauer gesagt, sie lässt alle URLs zu, die mit dem Namen Ihrer Domain beginnen, gefolgt von einer beliebigen Zeichenfolge, dann einem Fragezeichen und danach keinen weiteren Zeichen.
Speichern Sie Ihre Datei "robots.txt", indem Sie sie herunterladen oder die Inhalte in eine Text-Datei einfügen und als "robots.txt" speichern. Speichern Sie sie in der obersten Verzeichnisebene Ihrer Website. Die Datei "robots.txt" muss unter diesem Namen im Stammverzeichnis der Domain abgelegt werden. Eine in einem Unterverzeichnis gespeicherte Datei "robots.txt" ist ungültig, da die Suchroboter nur im Stammverzeichnis der Domain nach dieser Datei suchen. "http://www.example.com/robots.txt" ist beispielsweise ein gültiger Speicherort, "http://www.example.com/meinewebsite/robots.txt" hingegen nicht.
robots.txt-Datei testen
Mit dem Tool zum Testen der "robots.txt"-Datei können Sie feststellen, ob Ihre "robots.txt"-Datei versehentlich eine Datei oder ein Verzeichnis auf Ihrer Website für den Googlebot sperrt oder ob sie zulässt, dass der Googlebot Dateien crawlt, die nicht im Web angezeigt werden sollten. Wenn Sie den Text einer vorgeschlagenen "robots.txt"-Datei eingeben, liest das Tool ihn auf die gleiche Weise wie der Googlebot und listet die Auswirkungen der Datei und alle möglicherweise gefundenen Probleme auf.
So testen Sie die "robots.txt"-Datei einer Website:
- Klicken Sie auf der Startseite von Webmaster-Tools auf die gewünschte Website.
- Klicken Sie unter Gesundheit auf Blockierte URLs.
- Klicken Sie auf den Tab "robots.txt"-Datei testen, sofern dieser noch nicht ausgewählt ist.
- Kopieren Sie den Inhalt Ihrer "robots.txt"-Datei und fügen Sie ihn in das erste Feld ein.
- Geben Sie im Feld URLs die Website an, für die der Test durchgeführt werden soll.
- Wählen Sie in der Liste User-Agents die gewünschten User-Agents aus.
Alle in diesem Tool vorgenommenen Änderungen werden nicht gespeichert. Kopieren Sie zum Speichern von Änderungen die Inhalte und fügen Sie sie in die "robots.txt"-Datei ein.
Dieses Tool liefert nur Ergebnisse für User-Agents von Google, z. B. für den Googlebot. Andere Suchroboter können die "robots.txt"-Datei möglicherweise nicht auf dieselbe Art und Weise interpretieren. Googlebot unterstützt zum Beispiel eine erweiterte Definition des "robots.txt"-Standardprotokolls. Er erkennt "Allow:"-Anweisungen sowie bestimmte Suchmuster. Wenn das Tool also Zeilen anzeigt, die diese Erweiterungen enthalten, sollten Sie berücksichtigen, dass dies nur für den Googlebot gilt und nicht notwendigerweise für andere Suchroboter, die Ihre Website durchsuchen.
