Seiten mithilfe einer robots.txt-Datei blockieren oder entfernen

Die robots.txt-Generierung wird in Kürze deaktiviert. Sie können manuell eine robots.txt-Datei erstellen oder eines der vielen robots.txt-Erstellungstools im Web verwenden.

Eine robots.txt-Datei schränkt den Zugriff auf Ihre Website für Suchmaschinenrobots ein, die das Web crawlen. Robots sind automatisierte Systeme, die vor dem Zugriff auf die Seiten einer Website prüfen, ob der Zugriff auf bestimmte Seiten möglicherweise durch die Datei "robots.txt" gesperrt ist. Die in der "robots.txt"-Datei festgelegten Anweisungen werden von allen seriösen Robots unterstützt. Einige können sie allerdings unterschiedlich interpretieren. Die Beachtung einer robots.txt-Datei ist jedoch nicht lückenlos durchsetzbar, sodass sie von Spammern und anderen Störenfrieden gelegentlich ignoriert wird. Deshalb empfehlen wir Ihnen, vertrauliche Informationen mit einem Passwort zu schützen.

Wenn Sie sehen möchten, welche URLs für das Crawlen durch Google blockiert wurden, öffnen Sie in den Webmaster-Tools im Abschnitt Crawling die Seite Blockierte URLs.

Sie benötigen die Datei "robots.txt" nur, wenn Ihre Website Inhalte aufweist, die nicht von den Suchmaschinen indexiert werden sollen. Falls Ihre gesamte Website in die Suchmaschinen-Indizes aufgenommen werden soll, können Sie auf die Datei "robots.txt" verzichten.

Zwar werden die Inhalte der Seiten, die durch die Datei "robots.txt" blockiert sind, weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden.

Zum Verwenden einer "robots.txt"-Datei benötigen Sie Zugriff auf das Stammverzeichnis Ihrer Domain. Wenden Sie sich im Zweifelsfall an Ihren Webhosting-Anbieter. Falls Sie keinen Zugriff auf das Stammverzeichnis einer Domain haben, können Sie den Zugriff über das Robots-Meta-Tag einschränken.

Sollen die Inhalte einer Seite nie zum Google-Webindex hinzugefügt werden, obwohl von anderen Websites auf sie verwiesen wird, ist die Verwendung eines "noindex"-Meta-Tags oder X-Robots-Tags notwendig. Beim Crawlen der Seite erkennt der Googlebot das "noindex"-Meta-Tag und schließt die URL aus dem Index aus. Der X-Robots-Tag-HTTP-Header ist insbesondere hilfreich, um das Indexieren von Nicht-HTML-Dateien wie Grafiken oder anderen Dokumenttypen einzuschränken.

robots.txt-Datei erstellen

Die einfachste robots.txt-Datei enthält nur zwei Regeln:

  • User-agent: Der Suchrobot, für den die folgende Regel gilt
  • Disallow: Die URL, die blockiert werden soll

Diese beiden Zeilen werden als einzelner Eintrag in der Datei betrachtet. Sie können beliebig viele Einträge aufnehmen. Ein Eintrag kann auch mehrere "Disallow"-Zeilen und mehrere User-Agents umfassen.

Jeder Abschnitt der Datei "robots.txt" ist eigenständig und baut nicht auf vorherigen Abschnitten auf. Beispiele:


User-agent: *
Disallow: /Ordner1/

User-Agent: Googlebot
Disallow: /Ordner2/

In diesem Beispiel wären nur URLs, die /Ordner2/ enthalten, für den Googlebot unzulässig.

User-Agents und Such-Robots

Ein User-Agent ist ein bestimmter Suchmaschinenrobot. In der Web Robots Database (Datenbank für Suchrobots) sind die am häufigsten verwendeten Suchrobots aufgeführt. Sie können in einem Eintrag auf einen bestimmten Suchrobot verweisen (durch Angabe des Namens) oder alle Robots einbeziehen (durch ein Sternchen). Ein Eintrag für alle Suchrobots sieht folgendermaßen aus:

User-agent: *

Google verwendet verschiedene Suchrobots (User-Agents). Der für unsere Websuche zuständige Robot heißt Googlebot. Unsere anderen Suchrobots wie Googlebot-Mobile und Googlebot-Image folgen ebenfalls den Regeln für den Googlebot, Sie können jedoch für diese Robots zusätzliche individuelle Regeln festlegen.

Blockieren von User-Agents

In der Zeile "Disallow" werden die zu blockierenden Seiten aufgelistet. Sie können eine spezifische URL angeben oder ein Muster verwenden. Der Eintrag muss mit einem Schrägstrich (/) beginnen.

  • Blockieren der gesamten Website: Tragen Sie nur einen Schrägstrich ein.
    Disallow: /
  • Blockieren eines Verzeichnisses und seines Inhalts: Geben Sie den Verzeichnisnamen gefolgt von einem Schrägstrich an.
    Disallow: /junk-verzeichnis/
  • Blockieren einer Seite: Geben Sie die Seite an.
    Disallow: /private_datei.html
  • Entfernen eines bestimmten Bildes aus Google Bilder: Fügen Sie folgende Angaben hinzu:
    User-agent: Googlebot-Image
    Disallow: /bilder/hunde.jpg 
  • Entfernen aller Bilder auf Ihrer Website aus Google Bilder:
    User-agent: Googlebot-Image
    Disallow: / 
  • Alle Dateien eines bestimmten Dateityps (z. B. .gif) blockieren: Verwenden Sie den folgenden Eintrag:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Blockieren des Crawlens von Seiten Ihrer Website, aber Schaltung von AdSense-Anzeigen auf diesen Seiten: Schließen Sie alle Suchrobots außer "Mediapartners-Google" aus. Die Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Suchroboter "Mediapartners-Google" analysiert, um zu bestimmen, welche Anzeigen geschaltet werden. Der Suchroboter "Mediapartners-Google" gibt keine Seiten an andere Google-User-Agents weiter. Beispiel:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

Bei Anweisungen wird die Groß-/Kleinschreibung berücksichtigt. Disallow: /junk_file.asp würde http://www.ihremusterdomain.de/junk_file.asp zum Beispiel blockieren, http://www.ihremusterdomain.de/Junk_file.asp jedoch zulassen. Googlebot ignoriert Leerzeichen (insbesondere leere Zeilen) und unbekannte Anweisungen in der robots.txt-Datei.

Der Googlebot unterstützt die Übermittlung von XML-Sitemap-Dateien über die robots.txt-Datei.

Suchmuster für Robots

Der Googlebot respektiert bestimmte Suchmuster. Dies gilt jedoch nicht für alle Suchmaschinen.

  • Sternchen (*) als Platzhalter für eine Zeichenfolge verwenden: Mit der folgenden Anweisung können Sie beispielsweise den Zugriff auf alle Unterverzeichnisse sperren, die mit dem Wort "privat" beginnen:
    User-Agent: Googlebot
    Disallow: /privat*/
  • Blockieren des Zugriffs auf alle URLs, die ein Fragezeichen (?) enthalten (d. h. das Crawlen aller URLs, die mit dem Namen Ihrer Domain beginnen, auf den dann eine beliebige Zeichenfolge, ein Fragezeichen und dann wieder eine Zeichenfolge folgen):
    User-agent: Googlebot
    Disallow: /*?
  • Abgleichen mit dem Ende einer URL: Verwenden Sie das Dollar-Zeichen ($). Mit der folgenden Anweisung können Sie beispielsweise den Zugriff auf alle URLs sperren, die mit ".xls" enden:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Der Musterabgleich lässt sich auch in Kombination mit der "Allow"-Anweisung einsetzen. Beispiel: Wenn das Fragezeichen (?) für eine Sitzungs-ID steht, können Sie alle URLs mit diesem Zeichen sperren, damit der Googlebot keine identischen Seiten durchsucht. Möglicherweise bezeichnen jedoch URLs, die mit einem Fragezeichen (?) enden, die Version einer Seite, die einbezogen werden soll. In diesem Fall können Sie Folgendes in Ihrer Datei "robots.txt" angeben:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Die Anweisung Disallow: / *? blockiert alle URLs, die ein Fragezeichen enthalten. Genauer gesagt blockiert sie alle URLs, die mit dem Namen Ihrer Domain beginnen, gefolgt von einer beliebigen Zeichenfolge, dann einem Fragezeichen und dann wieder einer Zeichenfolge.

    Die Anweisung Allow: /*?$ lässt dagegen alle URLs zu, die mit einem Fragezeichen enden. Genauer gesagt lässt sie alle URLs zu, die mit dem Namen Ihrer Domain beginnen, gefolgt von einer beliebigen Zeichenfolge, dann einem Fragezeichen und danach keinen weiteren Zeichen.

Speichern Sie Ihre robots.txt-Datei, indem Sie sie herunterladen oder den Inhalt in eine Textdatei einfügen und als "robots.txt" speichern. Speichern Sie sie in der obersten Verzeichnisebene Ihrer Website. Die robots.txt-Datei muss unter diesem Namen im Stammverzeichnis der Domain abgelegt werden. Eine in einem Unterverzeichnis gespeicherte robots.txt-Datei ist ungültig, da die Suchroboter nur im Stammverzeichnis der Domain nach dieser Datei suchen. http://www.example.com/robots.txt wäre beispielsweise ein gültiger Speicherort, http://www.example.com/mysite/robots.txt jedoch nicht.

robots.txt-Datei testen

Mit dem Tool zum Testen der robots.txt-Datei können Sie feststellen, ob Ihre robots.txt-Datei versehentlich eine Datei oder ein Verzeichnis auf Ihrer Website für den Googlebot sperrt oder ob sie zulässt, dass der Googlebot Dateien crawlt, die nicht im Web angezeigt werden sollten. Wenn Sie den Text einer vorgeschlagenen robots.txt-Datei eingeben, liest das Tool ihn auf die gleiche Weise wie der Googlebot ein und listet die Auswirkungen der Datei und alle möglicherweise gefundenen Probleme auf.

So testen Sie die "robots.txt"-Datei einer Website:

  1. Klicken Sie auf der Startseite der Webmaster-Tools auf die gewünschte Website.
  2. Klicken Sie unter Crawling auf Blockierte URLs.
  3. Klicken Sie auf den Tab robots.txt testen, sofern dieser noch nicht ausgewählt ist.
  4. Kopieren Sie den Inhalt Ihrer robots.txt-Datei und fügen Sie ihn in das erste Feld ein.
  5. Geben Sie im Feld für die URLs die Website an, gegen die getestet werden soll.
  6. Wählen Sie aus der Liste der User-Agents die gewünschten User-Agents aus.

Alle in diesem Tool vorgenommenen Änderungen werden nicht gespeichert. Kopieren Sie zum Speichern von Änderungen die Inhalte und fügen Sie sie in die "robots.txt"-Datei ein.

Dieses Tool liefert nur für User-Agents von Google Ergebnisse, z. B. Googlebot. Andere Suchroboter können die robots.txt-Datei möglicherweise nicht auf dieselbe Art und Weise interpretieren. Googlebot unterstützt zum Beispiel eine erweiterte Definition des "robots.txt"-Standardprotokolls. Googlebot erkennt Allow:-Anweisungen sowie bestimmte Suchmuster. Wenn also dieses Tool Zeilen anzeigt, die diese Erweiterungen enthalten, sollten Sie dabei berücksichtigen, dass dies nur für den Googlebot gilt und nicht notwendigerweise für andere Suchrobots, die Ihre Website crawlen.