Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü
true

URLs mit robots.txt blockieren

robots.txt-Datei erstellen

Jetzt starten

Eine robots.txt-Datei besteht aus einer oder mehreren Regeln. Jede Regel blockiert oder erlaubt einem bestimmten Crawler den Zugriff auf einen festgelegten Dateipfad auf einer Website.

Hier finden Sie ein Beispiel einer einfachen robots.txt-Datei, die aus zwei Regeln besteht:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Erklärung:

  1. Der User-Agent namens "Googlebot"-Crawler soll den Ordner http://www.example.com/nogooglebot/ und seine Unterverzeichnisse nicht crawlen.
  2. Alle anderen User-Agenten können auf die gesamte Website zugreifen. Diese Regel könnte weggelassen werden und das Ergebnis wäre das gleiche, da immer von einem vollständigen Zugriff ausgegangen wird.
  3. Die XML-Sitemap-Datei der Website befindet sich unter http://www.example.com/sitemap.xml.

Ein ausführlicheres Beispiel folgt zu einem späteren Zeitpunkt.

Grundlegende robots.txt-Regeln

Einige grundlegende Regeln für robots.txt-Dateien sind: Verwenden Sie zum Schreiben oder Bearbeiten von robots.txt-Dateien für Ihre Website das robots.txt-Tester-Tool. Mit diesem Tool können Sie die Syntax und das Verhalten Ihrer Website prüfen. Lesen Sie anschließend die Spezifikationen zur vollständigen Syntax von robots.txt-Dateien, da die Syntax etwas komplizierter ist, als es auf den ersten Blick scheint.

Format und Speicherort

Sie können robots.txt-Dateien mit fast allen Texteditoren erstellen. Der Texteditor muss in der Lage sein, Standard-ASCII- oder UTF-8-Textdateien zu erstellen. Verwenden Sie kein Textverarbeitungsprogramm, denn diese speichern Dateien häufig in einem eigenen Format und können unerwartete Zeichen hinzufügen, beispielsweise typografische Anführungszeichen, was Probleme für Crawler verursachen kann.

Format- und Speicherortregeln:

  • Die robots.txt-Datei muss eine ASCII- oder UTF-8-Textdatei sein. Andere Zeichen sind nicht erlaubt.
  • Die Datei muss den Namen "robots.txt" haben.
  • Ihre Website kann nur eine robots.txt-Datei enthalten.
  • Die robots.txt-Datei muss sich im Stammverzeichnis des Websitehosts befinden, für den sie eingerichtet wird. Wenn Sie zum Beispiel das Crawling für alle URLs unter http://www.example.com/ steuern möchten, muss sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden. Eine robots.txt-Datei darf nicht in einem Unterverzeichnis (z. B. http://website.example.com/ihreseite/robots.txt) platziert werden. Wenn Sie sich nicht sicher sind, wie Sie auf das Stammverzeichnis Ihrer Website zugreifen können, oder eine Erlaubnis dazu benötigen, wenden Sie sich an Ihren Webhostinganbieter. Falls Sie nicht auf das Stammverzeichnis Ihrer Website zugreifen können, können Sie eine alternative Blockierungsmethode wie Meta-Tags verwenden.
  • Eine robots.txt-Datei ist auf Subdomains (z. B. http://website.example.com/robots.txt) oder nicht standardmäßigen Ports (z. B. http://example.com:8181/robots.txt) anwendbar.

Syntax

  • Eine robots.txt-Datei besteht aus einem oder mehreren Regelsätzen.
  • Jede Regel benennt einen oder mehrere User-Agents und beschreibt, auf welche Verzeichnisse oder Dateien der Agent zugreifen kann.
  • Regeln werden von oben nach unten verarbeitet und ein User-Agent kann nur einen Regelsatz verarbeiten. Er verarbeitet die Regel, die mit diesem bestimmten User-Agent am meisten übereinstimmt.
  • Standardmäßig wird vorausgesetzt, dass ein User-Agent eine Seite oder ein Verzeichnis crawlen kann, das nicht durch eine Disallow:-Regel blockiert wird.
  • Bei Regeln muss die Groß- und Kleinschreibung beachtet werden. Beispielsweise ist Disallow: /file.asp auf http://www.example.com/datei.asp anwendbar, jedoch nicht auf http://www.example.com/Datei.asp.

Die folgenden Keywords werden in robots.txt-Dateien verwendet:

  • User-Agent [einer oder mehrere pro Regel erforderlich]: Name des Robot (der Web-Crawler-Software) der Suchmaschine, für den die darauffolgende Regel gilt. Die meisten User-Agents sind in der Web Robots Database oder in der Liste von Robots im Artikel Google-Crawler zu finden. Der Platzhalter * wird für Präfixe, Suffixe oder ganze Strings bei Pfaden unterstützt. Im folgenden Beispiel wird ein Sternchen (*) verwendet, das für alle Crawler anwendbar ist, mit Ausnahme der verschiedenen AdsBot-Crawler, die ausdrücklich benannt werden müssen. Weitere Informationen finden Sie in der Liste der Google-Crawler.
    # Block all but AdsBot crawlers
    User-agent: *
  • Disallow [mindestens ein oder mehrere Disallow- oder Allow-Einträge pro Regel]: Ein Verzeichnis oder eine Seite mit Bezug zur Stammdomain, die vom User-Agent nicht gecrawlt werden soll. Wenn es sich um eine Seite handelt, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen.  Der Platzhalter * wird für Präfixe, Suffixe oder ganze Strings bei Pfaden unterstützt.
  • Allow [mindestens ein oder mehrere Disallow- oder Allow-Einträge pro Regel]: Ein Verzeichnis oder eine Seite mit Bezug zur Stammdomain, die vom zuvor erwähnten User-Agent gecrawlt werden soll. Hiermit wird "Disallow" überschrieben, um das Crawling eines Unterverzeichnisses oder einer Seite in einem ausgeschlossenen Verzeichnis zu erlauben. Wenn es sich um eine Seite handelt, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen. Der Platzhalter * wird für Präfixe, Suffixe oder ganze Strings bei Pfaden unterstützt.
  • Sitemap [optional, null oder mehrere pro Datei]: Der Speicherort einer Sitemap in dieser Website. Diese Zeile ist optional. Sie können mehrere Sitemaps angeben, wobei jede in einer eigenen Zeile steht. XML-Sitemaps sind eine praktische Möglichkeit, Google zu zeigen, welche Inhalte gecrawlt werden sollen, im Gegensatz zu solchen Inhalten, die gecrawlt werden können oder nicht gecrawlt werden können. Weitere Informationen zu Sitemaps

Unbekannte Keywords werden ignoriert.

Weitere Beispieldatei

Eine robots.txt-Datei besteht aus einem oder mehreren Regelblöcken, die alle mit einer User-Agent-Zeile beginnen, in der das Zielverzeichnis für die Regeln angegeben ist. Dies ist eine Datei mit zwei Regeln und Inline-Kommentaren zur Erklärung der Regeln:

# Block googlebot from example.com/verzeichnis1/... und example.com/verzeichnis2/...
# aber Zugriff auf Verzeichnis2/Unterverzeichnis1/... erlauben.
# Bei allen anderen Verzeichnissen auf der Website ist Crawlen standardmäßig erlaubt.
User-agent: googlebot
Disallow: /verzeichnis1/
Disallow: /verzeichnis2/
Allow: /verzeichnis2/unterverzeichnis1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Vollständige robots.txt-Syntax

Hier finden Sie die vollständige Syntax von robots.txt-Dateien. Bitte lesen Sie sich diese Informationen sorgfältig durch, da die robots.txt-Syntax ein paar knifflige Teile enthält, die Sie kennen sollten.

Nützliche robots.txt-Regeln

Hier sind einige nützliche, allgemeine robots.txt-Regeln:

Regel Beispiel
Crawling der gesamten Website unterbinden: Beachten Sie, dass in einigen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. Hinweis: Dies gilt nicht für die verschiedenen AdsBot-Crawler, die ausdrücklich benannt werden müssen.
User-agent: *
Disallow: /
Unterbinden Sie das Crawlen eines Verzeichnisses und seines Inhalts durch Angabe des Verzeichnisnamens gefolgt von einem Schrägstrich. Verwenden Sie zum Blockieren privater Inhalte keinesfalls eine robots.txt-Datei, sondern eine geeignete Authentifizierungsmethode. Durch die robots.txt-Datei gesperrte URLs können indexiert werden, ohne dass sie gecrawlt wurden. Die robots.txt-Datei kann außerdem von allen Nutzern gelesen werden, was dazu führt, dass der Speicherort Ihrer privaten Inhalte öffentlich zugänglich ist.
User-agent: *
Disallow: /kalender/
Disallow: /spam/
Einem einzelnen Crawler Zugriff gewähren:
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Allen Crawlern außer einem einzelnen Zugriff gewähren:
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Durch Auflisten der Seite nach dem Schrägstrich das Crawlen einer einzigen Webseite nicht zulassen:

Disallow: /private_datei.html

Ein bestimmtes Bild von Google Bilder blockieren:

User-agent: Googlebot-Image
Disallow: /bilder/hunde.jpg

Alle Bilder von Google Bilder auf Ihrer Website blockieren:

User-Agent: Googlebot-Image
Disallow: /

Crawlen von Dateien eines bestimmten Dateityps nicht zulassen, wie z. B. gif:

User-agent: Googlebot
Disallow: /*.gif$

Crawlen der gesamten Website nicht zulassen aber AdSense-Anzeigen auf diesen Seiten schalten; alle Web-Crawler außer "Mediapartners-Google" ausschließen. Ihre Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler Mediapartners-Google analysiert, um zu bestimmen, welche Anzeigen geschaltet werden.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Verwenden Sie das Dollarzeichen $, um alle URLs zu blockieren, die mit einem bestimmten String enden. Mit dem Beispielcode werden alle URLs blockiert, die auf xls enden:
User-agent: Googlebot
Disallow: /*.xls$
War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?
false