Über robots.txt

robots.txt-Datei erstellen

Wenn Sie einen Hostanbieter wie Wix oder Blogger verwenden, kann es sein, dass Sie keine robots.txt-Datei erstellen oder bearbeiten müssen.

Erste Schritte

Eine robots.txt-Datei ist eine Datei im Stammverzeichnis Ihrer Website. Für die Website www.example.com befindet sich die robots.txt-Datei also auf www.example.com/robots.txt. Eine robots.txt-Datei ist eine Nur-Text-Datei, die den Robots Exclusion Standard einhält. Sie besteht aus einer oder mehreren Regeln. Jede Regel blockiert oder erlaubt einem bestimmten Crawler den Zugriff auf einen festgelegten Dateipfad auf einer Website.

Hier ein Beispiel für eine einfache robots.txt-Datei, die aus zwei Regeln besteht:

# Gruppe 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Gruppe 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Was bedeuten diese Regeln?

  1. Der User-Agent namens "Googlebot" soll den Ordner http://www.example.com/nogooglebot/ und seine Unterverzeichnisse nicht crawlen.
  2. Alle anderen User-Agents können auf die gesamte Website zugreifen. Diese Regel könnte weggelassen werden und das Ergebnis wäre das gleiche, da grundsätzlich von einem vollständigen Zugriff ausgegangen wird.
  3. Die XML-Sitemap-Datei der Website befindet sich unter http://www.example.com/sitemap.xml.

Ein ausführlicheres Beispiel folgt weiter unten.

Grundlegende Richtlinien für robots.txt-Dateien

Nachstehend finden Sie einige grundlegende Richtlinien für robots.txt-Dateien. Da es wichtig ist, die Eigenheiten der Syntax einer robots.txt-Datei zu verstehen, sollten Sie sich auch die vollständige Syntax von robots.txt-Dateien ansehen.

Format und Speicherort

Sie können robots.txt-Dateien mit fast allen Texteditoren erstellen. Mit dem Texteditor müssen sich Standard-UTF-8-Textdateien erstellen lassen. Verwenden Sie kein Textverarbeitungsprogramm, denn dort werden Dateien häufig in einem eigenen Format abgespeichert und es können unerwartete Zeichen hinzugefügt werden, beispielsweise typografische Anführungszeichen. Dies kann zu Problemen beim Crawling führen.

Mit dem robots.txt-Tester können Sie robots.txt-Dateien für Ihre Website erstellen oder bearbeiten. Außerdem lässt sich damit die Syntax und die Auswirkung auf Ihre Website prüfen.

Format- und Speicherortregeln:

  • Die Datei muss den Namen "robots.txt" haben.
  • Ihre Website darf nicht mehr als eine robots.txt-Datei enthalten.
  • Die robots.txt-Datei muss sich im Stammverzeichnis des Websitehosts befinden, für den sie eingerichtet wird. Wenn Sie zum Beispiel das Crawling für alle URLs unter http://www.example.com/ festlegen möchten, muss sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden. Eine robots.txt-Datei darf nicht in einem Unterverzeichnis wie z. B. http://example.com/seiten/robots.txt platziert werden. Wenn Sie sich nicht sicher sind, wie Sie auf das Stammverzeichnis Ihrer Website zugreifen können, oder eine Erlaubnis dazu benötigen, wenden Sie sich an Ihren Webhostinganbieter. Falls Sie nicht auf das Stammverzeichnis Ihrer Website zugreifen können, können Sie eine alternative Blockierungsmethode wie Meta-Tags verwenden.
  • Eine robots.txt-Datei kann auf Subdomains (z. B. http://website.example.com/robots.txt) oder nicht standardmäßige Ports (z. B. http://example.com:8181/robots.txt) angewendet werden.
  • Kommentare sind alle Inhalte nach einer #-Markierung.

Syntax

  • robots.txt muss eine UTF-8-codierte Textdatei sein (was ASCII-Dateien einschließt). Die Verwendung anderer Zeichensätze ist nicht möglich.
  • Die Datei enthält eine oder mehrere Gruppen.
  • Jede Gruppe besteht aus mehreren Regeln oder Anweisungen mit jeweils einer Regel bzw. Anweisung pro Zeile.
  • Eine Gruppe enthält die folgenden Informationen:
    • für wen die Regel gilt (User-Agent),
    • auf welche Verzeichnisse oder Dateien der User-Agent zugreifen darf und/oder
    • auf welche Verzeichnisse oder Dateien der User-Agent nicht zugreifen darf.
  • Gruppen werden von oben nach unten verarbeitet und ein User-Agent kann nur einen Regelsatz anwenden. Er wendet die spezifischste Regel an, die auf diesen User-Agent anwendbar ist und zuerst in der Datei erscheint.
  • Standardmäßig wird davon ausgegangen, dass ein User-Agent alle Seiten und Verzeichnisse crawlen darf, die nicht durch eine Disallow:-Regel blockiert sind.
  • Bei den Regeln muss die Groß- und Kleinschreibung beachtet werden. Beispielsweise ist Disallow: /file.asp auf http://www.example.com/file.asp anwendbar, jedoch nicht auf http://www.example.com/FILE.asp.

In robots.txt-Dateien werden die folgenden Anweisungen verwendet:

  • User-Agent [erforderlich; einer oder mehrere pro Gruppe]: Name des Robot (Web-Crawler-Software) der Suchmaschine, für den die Regel gilt. Dies ist die erste Zeile für jede Regel. Die meisten User-Agents sind in der Web Robots Database zu finden oder in der Liste der User-Agents im Artikel Google-Crawler. Der Platzhalter * kann für Präfixe, Suffixe oder ganze Strings in Pfaden verwendet werden. Im folgenden Beispiel wird ein Sternchen (*) verwendet, das für alle Crawler mit Ausnahme der verschiedenen AdsBot-Crawler stehen kann, die ausdrücklich benannt werden müssen. Weitere Informationen finden Sie in der Liste der Google-Crawler. Beispiele:
    # Beispiel 1: Nur Googlebot blockieren
    User-agent: Googlebot
    Disallow: /
    
    # Beispiel 2: Googlebot und AdsBot blockieren
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Beispiel 3: Alle außer AdsBot-Crawlern blockieren
    User-agent: *
    Disallow: /
  • Disallow [mindestens ein Disallow- oder Allow-Eintrag pro Regel]: ein Verzeichnis oder eine Seite unter der Stammdomain, die vom User-Agent nicht gecrawlt werden soll. Wenn sich "Disallow" auf eine Seite bezieht, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen.  Der Platzhalter * kann für Präfixe, Suffixe oder ganze Strings in Pfaden verwendet werden.
  • Allow [mindestens ein Disallow- oder Allow-Eintrag pro Regel]: ein Verzeichnis oder eine Seite unter der Stammdomain, die vom zuvor genannten User-Agent gecrawlt werden soll. Hierdurch wird "Disallow" überschrieben, um so das Crawling eines Unterverzeichnisses oder einer Seite in einem ausgeschlossenen Verzeichnis zu erlauben. Wenn sich "Allow" auf eine Seite bezieht, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen. Der Platzhalter * kann für Präfixe, Suffixe oder ganze Strings in Pfaden verwendet werden.
  • Sitemap [optional; Anzahl: keine Angabe oder beliebig oft pro Datei]: der Speicherort einer Sitemap für diese Website. Es muss sich um eine vollständig qualifizierte URL handeln. Google geht nicht von Varianten aus und prüft diese auch nicht (z. B. http- bzw. https-Varianten oder Varianten mit bzw. ohne "www"). Sitemaps sind eine praktische Möglichkeit, Google zu zeigen, welche Inhalte gecrawlt werden sollen, dies im Unterschied zu den "Allow"/"Disallow"-Anweisungen, mit denen dem Googlebot mitgeteilt wird, welche Inhalte gecrawlt werden dürfen oder nicht gecrawlt werden dürfen. Weitere Informationen zu Sitemaps. Beispiel:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Andere Regeln werden ignoriert.

Weitere Beispieldatei

Eine robots.txt-Datei enthält eine oder mehrere Gruppen, die alle mit einer User-agent-Zeile beginnen, in der das Zielverzeichnis für die Gruppen angegeben ist. Das Folgende ist eine Datei mit zwei Gruppen und Inline-Kommentaren mit Erläuterungen zu den Gruppen:

# Googlebot für example.com/verzeichnis1/... und example.com/verzeichnis2/... blockieren
# aber Zugriff auf verzeichnis2/unterverzeichnis1/... erlauben
# Für alle anderen Verzeichnisse der Website ist das Crawlen standardmäßig erlaubt
User-agent: googlebot
Disallow: /verzeichnis1/
Disallow: /verzeichnis2/
Allow: /verzeichnis2/unterverzeichnis1/

# Gesamte Website für anderercrawler blockieren
User-agent: anderercrawler
Disallow: /

Vollständige robots.txt-Syntax

Hier finden Sie die vollständige Syntax von robots.txt-Dateien. Bitte lesen Sie sich diese Informationen sorgfältig durch, da die robots.txt-Syntax ein paar knifflige Eigenheiten enthält, die Sie kennen sollten.

Nützliche robots.txt-Regeln

Hier einige nützliche allgemeine robots.txt-Regeln:

Regel Beispiel
Crawling der gesamten Website verhindern: Beachten Sie, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. Hinweis: Das Beispiel gilt nicht für die verschiedenen AdsBot-Crawler, die ausdrücklich benannt werden müssen.
User-agent: *
Disallow: /
Crawling eines Verzeichnisses und seines Inhalts verhindern: Geben Sie das Verzeichnis gefolgt von einem Schrägstrich an. Verwenden Sie zum Blockieren privater Inhalte keinesfalls eine robots.txt-Datei, sondern eine geeignete Authentifizierungsmethode. Durch die robots.txt-Datei gesperrte URLs können indexiert werden, ohne dass sie gecrawlt wurden. Die robots.txt-Datei kann außerdem von allen Nutzern gelesen werden, was dazu führt, dass der Speicherort Ihrer privaten Inhalte öffentlich zugänglich ist.
User-agent: *
Disallow: /kalender/
Disallow: /spam/
Einem einzelnen Crawler Zugriff gewähren:
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Allen Crawlern außer einem Zugriff gewähren:
User-agent: Unerwünschterbot
Disallow: /

User-agent: *
Allow: /

Durch Auflisten der Seite nach dem Schrägstrich das Crawling einer einzigen Webseite verhindern:

User-agent: *
Disallow: /private_file.html

Ein bestimmtes Bild für Google Bilder blockieren:

User-agent: Googlebot-Image
Disallow: /bilder/hunde.jpg

Alle Bilder auf Ihrer Website für Google Bilder blockieren:

User-Agent: Googlebot-Image
Disallow: /

Crawling von Dateien eines bestimmten Dateityps verhindern, z. B. .gif:

User-agent: Googlebot
Disallow: /*.gif$

Crawling der gesamten Website verhindern, aber AdSense-Anzeigen auf diesen Seiten ausliefern, also alle Web-Crawler außer "Mediapartners-Google" ausschließen. Ihre Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler Mediapartners-Google analysiert, um zu bestimmen, welche Anzeigen ausgeliefert werden sollen.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Wenn Sie sich auf alle URLs beziehen möchten, die mit einem bestimmten String enden, dann verwenden Sie das Dollarzeichen ($). In diesem Beispiel werden alle URLs blockiert, die auf .xls enden:
User-agent: Googlebot
Disallow: /*.xls$
War das hilfreich?
Wie können wir die Seite verbessern?