Über robots.txt

robots.txt-Datei erstellen

Wenn Sie einen Hostanbieter wie Wix oder Blogger verwenden, kann es sein, dass Sie keine robots.txt-Datei erstellen oder bearbeiten müssen.

Erste Schritte

Eine robots.txt-Datei ist eine Datei im Stammverzeichnis Ihrer Website. Für die Website www.example.com befindet sich die robots.txt-Datei also auf www.example.com/robots.txt. Eine robots.txt-Datei ist eine Nur-Text-Datei, die den Robots Exclusion Standard einhält. Sie besteht aus einer oder mehreren Regeln. Jede Regel blockiert oder erlaubt einem bestimmten Crawler den Zugriff auf einen festgelegten Dateipfad auf einer Website.

Hier finden Sie ein Beispiel einer einfachen robots.txt-Datei, die aus zwei Regeln besteht:

# Regel 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Regel 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Erklärung:

  1. Der User-Agent namens "Googlebot" soll den Ordner http://www.example.com/nogooglebot/ und seine Unterverzeichnisse nicht crawlen.
  2. Alle anderen User-Agents können auf die gesamte Website zugreifen. Diese Regel könnte weggelassen werden und das Ergebnis wäre das gleiche, da immer von einem vollständigen Zugriff ausgegangen wird.
  3. Die XML-Sitemap-Datei der Website befindet sich unter http://www.example.com/sitemap.xml.

Ein ausführlicheres Beispiel folgt zu einem späteren Zeitpunkt.

Grundlegende Richtlinien für robots.txt-Dateien

Hier finden Sie einige grundlegende Richtlinien für robots.txt-Dateien. Da es wichtig ist, die Eigenheiten der Syntax einer robots.txt-Datei zu verstehen, sollten Sie sich auch die vollständige Syntax von robots.txt-Dateien ansehen.

Format und Speicherort

Sie können robots.txt-Dateien mit fast allen Texteditoren erstellen. Mit dem Texteditor müssen sich Standard-ASCII- oder UTF-8-Textdateien erstellen lassen. Verwenden Sie kein Textverarbeitungsprogramm, denn dort werden Dateien häufig in einem eigenen Format abgespeichert und es können unerwartete Zeichen hinzugefügt werden, beispielsweise typografische Anführungszeichen. Dies kann zu Problemen beim Crawling führen.

Mit dem robots.txt-Tester können Sie robots.txt-Dateien für Ihre Website erstellen oder bearbeiten. Außerdem lässt sich die Syntax und die Auswirkung auf Ihre Website prüfen.

Format- und Speicherortregeln:

  • Die Datei muss den Namen "robots.txt" haben.
  • Ihre Website kann nur eine robots.txt-Datei enthalten.
  • Die robots.txt-Datei muss sich im Stammverzeichnis des Websitehosts befinden, für den sie eingerichtet wird. Wenn Sie zum Beispiel das Crawling für alle URLs unter http://www.example.com/ festlegen möchten, muss sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden. Eine robots.txt-Datei darf nicht in einem Unterverzeichnis wie z. B. http://website.example.com/ihreseite/robots.txt platziert werden. Wenn Sie sich nicht sicher sind, wie Sie auf das Stammverzeichnis Ihrer Website zugreifen können, oder eine Erlaubnis dazu benötigen, wenden Sie sich an Ihren Webhostinganbieter. Falls Sie nicht auf das Stammverzeichnis Ihrer Website zugreifen können, können Sie eine alternative Blockierungsmethode wie Meta-Tags verwenden.
  • Eine robots.txt-Datei kann auf Subdomains (z. B. http://website.example.com/robots.txt) oder nicht standardmäßige Ports (z. B. http://example.com:8181/robots.txt) angewendet werden.
  • Alle Zeilen, die mit dem Zeichen "#" beginnen, sind Kommentare. 

Syntax

  • Eine robots.txt-Datei muss eine ASCII- oder UTF-8-Textdatei sein. Andere Zeichen sind nicht zulässig.
  • Sie besteht aus einer oder mehreren Regeln.
  • Jede Regel besteht wiederum aus mehreren Anweisungen mit jeweils einer Anweisung pro Zeile.
  • Eine Regel enthält Informationen dazu,
    • für wen die Regel gilt (User-Agent),
    • auf welche Verzeichnisse oder Dateien der User-Agent zugreifen darf und/oder
    • auf welche Verzeichnisse oder Dateien der User-Agent nicht zugreifen darf.
  • Regeln werden von oben nach unten verarbeitet und ein User-Agent kann nur einen Regelsatz anwenden. Er wendet die spezifischste Regel an, die auf diesen User-Agent anwendbar ist und zuerst in der Datei erscheint.
  • Standardmäßig wird davon ausgegangen, dass ein User-Agent alle Seiten und Verzeichnisse crawlen darf, die nicht durch eine Disallow:-Regel blockiert sind.
  • Bei den Regeln muss die Groß- und Kleinschreibung beachtet werden. Beispielsweise ist Disallow: /file.asp auf http://www.example.com/file.asp anwendbar, jedoch nicht auf http://www.example.com/FILE.asp.

In robots.txt-Dateien werden die folgenden Anweisungen verwendet:

  • User-Agent: [einer oder mehrere pro Regel erforderlich] Name des Robot (Web-Crawler-Software) der Suchmaschine, für den die Regel gilt. Dies ist die erste Zeile für jede Regel. Die meisten User-Agents sind in der Web Robots Database zu finden oder in der Liste von Robots im Artikel Google-Crawler. Im folgenden Beispiel wird ein Sternchen ("*") als Platzhalter verwendet, das für alle Crawler steht, mit Ausnahme der verschiedenen AdsBot-Crawler, die ausdrücklich benannt werden müssen. Weitere Informationen finden Sie in der Liste der Google-Crawler. Beispiele:
    # Beispiel 1: Nur Googlebot blockieren
    User-agent: Googlebot
    Disallow: /
    
    # Beispiel 2: Googlebot und AdsBot blockieren
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Beispiel 3: Alle außer AdsBot-Crawler blockieren
    User-agent: *
    Disallow: /
  • Disallow: [mindestens ein oder mehrere Disallow- oder Allow-Einträge pro Regel]: Ein Verzeichnis oder eine Seite unter der Stammdomain, die vom User-Agent nicht gecrawlt werden soll. Wenn es sich um eine Seite handelt, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen.  Der Platzhalter "*" wird für Präfixe, Suffixe oder ganze Strings bei Pfaden unterstützt.
  • Allow: [mindestens ein oder mehrere Disallow- oder Allow-Einträge pro Regel]: Ein Verzeichnis oder eine Seite unter der Stammdomain, die vom zuvor erwähnten User-Agent gecrawlt werden soll. Dadurch wird "Disallow" überschrieben, um das Crawling eines Unterverzeichnisses oder einer Seite in einem ausgeschlossenen Verzeichnis zu ermöglichen. Wenn es sich um eine Seite handelt, sollte der vollständige Seitenname verwendet werden, so wie er im Browser angezeigt wird. Bei einem Verzeichnis sollte am Ende das Zeichen "/" stehen. Der Platzhalter "*" wird für Präfixe, Suffixe oder ganze Strings bei Pfaden unterstützt.
  • Sitemap: [optional, keine oder mehr pro Datei]: Der Speicherort einer Sitemap für diese Website. Es muss sich um eine vollständig qualifizierte URL handeln. Google geht nicht von Varianten aus und prüft diese auch nicht (z. B. http- bzw. https-Varianten oder Varianten mit bzw. ohne "www"). XML-Sitemaps sind eine praktische Möglichkeit, Google zu zeigen, welche Inhalte gecrawlt werden sollen, im Gegensatz dazu, welche Inhalte gecrawlt werden können oder nicht gecrawlt werden können. Weitere Informationen zu Sitemaps. Beispiel:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Unbekannte Keywords werden ignoriert.

Weitere Beispieldatei

Eine robots.txt-Datei besteht aus einem oder mehreren Regelblöcken, die alle mit einer User-agent-Zeile beginnen, in der das Zielverzeichnis für die Regeln angegeben ist. Dies ist eine Datei mit zwei Regeln und Inline-Kommentaren zur Erklärung der Regeln:

# Googlebot für example.com/verzeichnis1/... und example.com/verzeichnis2/... blockieren
# aber Zugriff auf verzeichnis2/unterverzeichnis1/... erlauben
# Für alle anderen Verzeichnisse der Website ist das Crawlen standardmäßig erlaubt
User-agent: googlebot
Disallow: /verzeichnis1/
Disallow: /verzeichnis2/
Allow: /verzeichnis2/unterverzeichnis1/

# Gesamte Website für anderercrawler blockieren
User-agent: anderercrawler
Disallow: /

Vollständige robots.txt-Syntax

Hier finden Sie die vollständige Syntax von robots.txt-Dateien. Bitte lesen Sie sich diese Informationen sorgfältig durch, da die robots.txt-Syntax ein paar knifflige Eigenheiten enthält, die Sie kennen sollten.

Nützliche robots.txt-Regeln

Hier sind einige nützliche, allgemeine robots.txt-Regeln:

Regel Beispiel
Crawling der gesamten Website unterbinden: Beachten Sie, dass in einigen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. Hinweis: Das Beispiel gilt nicht für die verschiedenen AdsBot-Crawler, die ausdrücklich benannt werden müssen.
User-agent: *
Disallow: /
Crawling eines Verzeichnisses und seines Inhalts unterbinden: Geben Sie das Verzeichnis gefolgt von einem Schrägstrich an. Verwenden Sie zum Blockieren privater Inhalte keinesfalls eine robots.txt-Datei, sondern eine geeignete Authentifizierungsmethode. Durch die robots.txt-Datei gesperrte URLs können indexiert werden, ohne dass sie gecrawlt wurden. Die robots.txt-Datei kann außerdem von allen Nutzern gelesen werden, was dazu führt, dass der Speicherort Ihrer privaten Inhalte öffentlich zugänglich ist.
User-agent: *
Disallow: /kalender/
Disallow: /spam/
Einem einzelnen Crawler Zugriff gewähren:
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Allen Crawlern außer einem Zugriff gewähren:
User-agent: Unerwünschterbot
Disallow: /

User-agent: *
Allow: /

Durch Auflisten der Seite nach dem Schrägstrich das Crawling einer einzigen Webseite unterbinden:

Disallow: /private_datei.html

Ein bestimmtes Bild für Google Bilder blockieren:

User-agent: Googlebot-Image
Disallow: /bilder/hunde.jpg

Alle Bilder auf Ihrer Website für Google Bilder blockieren:

User-Agent: Googlebot-Image
Disallow: /

Crawling von Dateien eines bestimmten Dateityps unterbinden, wie z. B. .gif:

User-agent: Googlebot
Disallow: /*.gif$

Crawling der gesamten Website unterbinden, aber AdSense-Anzeigen auf diesen Seiten schalten, also alle Web-Crawler außer "Mediapartners-Google" ausschließen. Ihre Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler Mediapartners-Google analysiert, um zu bestimmen, welche Anzeigen geschaltet werden.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Wenn Sie sich auf alle URLs beziehen möchten, die mit einem bestimmten String enden, dann verwenden Sie das Dollarzeichen ($). In diesem Beispiel werden alle URLs blockiert, die auf .xls enden:
User-agent: Googlebot
Disallow: /*.xls$
War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?