Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü

URLs mit robots.txt blockieren

robots.txt-Datei erstellen

Zum Erstellen einer robots.txt-Datei benötigen Sie Zugriff auf das Stammverzeichnis Ihrer Domain. Wenn Sie sich nicht sicher sind, wie Sie darauf zugreifen können, wenden Sie sich an Ihren Webhosting-Anbieter. Falls Sie keinen Zugriff haben, können Sie das Crawlen Ihrer Inhalte mit anderen Methoden beschränken. So können Sie z. B. die Dateien auf Ihrem Server mit einem Passwort schützen und Meta-Tags in Ihre HTML-Datei einfügen.

Sie können eine robots.txt-Datei mit dem robots.txt-Tester erstellen oder eine vorhandene Datei bearbeiten. Dort können Sie Ihre Änderungen an der robots.txt-Datei direkt testen.

Informationen zur Syntax von "robots.txt"

Bei der einfachsten Variante der robots.txt-Datei werden zwei Keywords verwendet: User-agent und Disallow. Bei User-Agents handelt es sich um Suchmaschinen-Robots oder sogenannte Webcrawler. Die meisten User-Agents sind in der Web Robots Database aufgeführt. Disallow ist ein Befehl an den User-Agent, mit dem er angewiesen wird, auf eine bestimmte URL nicht zuzugreifen. Wenn Sie Google jedoch Zugriff auf eine bestimmte URL gewähren möchten, die sich in einem Unterverzeichnis eines blockierten Verzeichnisses befindet, können Sie ein drittes Keyword verwenden: Allow.

Google verwendet mehrere User-Agents, z. B. den Googlebot für die Google-Suche und Googlebot-Image für die Google-Bildersuche. Die meisten User-Agents von Google befolgen die Regeln, die Sie für den Googlebot festlegen. Sie können aber auch spezifische Regeln angeben, die nur für bestimmte User-Agents von Google gelten sollen.

Die Syntax zur Verwendung der Keywords lautet wie folgt:

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

Diese beiden Zeilen werden in der Datei als einzelner Eintrag angesehen. Dabei gilt die Disallow-Regel nur für die darüber angegebenen User-Agents. Sie können beliebig viele Einträge angeben und es können mehrere Disallow-Zeilen für mehrere User-Agents innerhalb eines Eintrags gelten. Sie können den Befehl User-agent für alle Webcrawler verwenden, indem Sie wie im folgenden Beispiel ein Sternchen (*) angeben:

User-agent: *

Befehle zur URL-Blockierung für Ihre robots.txt-Datei

Blockieren...

Beispiel

der gesamten Website durch Angabe eines Schrägstrichs (/):

Disallow: /

eines Verzeichnisses und seines Inhalts durch Angabe des Verzeichnisnamens gefolgt von einem Schrägstrich:

Disallow: /sample-directory/

einer Webseite durch Angabe der Seite nach dem Schrägstrich:

Disallow: /private_file.html

eines bestimmten Bilds in Google Bilder:

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

aller Bilder auf Ihrer Website in Google Bilder:

User-agent: Googlebot-Image

Disallow: /

aller Dateien eines bestimmten Dateityps, z. B. GIF:

User-agent: Googlebot

Disallow: /*.gif$

der Seiten Ihrer Website, wobei AdSense-Anzeigen auf diesen Seiten jedoch geschaltet werden. Schließen Sie alle Webcrawler außer "Mediapartners-Google" aus. Ihre Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Webcrawler Mediapartners-Google analysiert, um zu bestimmen, welche Anzeigen geschaltet werden.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Bei Anweisungen wird die Groß-/Kleinschreibung berücksichtigt. Das heißt, Disallow: /datei.asp würde http://www.ihrebeispielurl.de/datei.asp beispielsweise blockieren, http://www.ihrebeispielurl.de/Datei.asp jedoch zulassen. Der Googlebot ignoriert außerdem Leerzeichen und unbekannte Anweisungen in der Datei robots.txt.
Suchmuster-Regeln zur Optimierung des robots.txt-Codes

Suchmuster-Regel

Beispiel

Verwenden Sie zum Blockieren einer beliebigen Zeichenfolge ein Sternchen (*). Der Beispielcode blockiert den Zugriff auf alle Unterverzeichnisse, die mit dem Wort "private" beginnen.

User-agent: Googlebot

Disallow: /private*/

Zum Blockieren des Zugriffs auf alle URLs, die Fragezeichen (?) enthalten. Der Beispielcode blockiert URLs, die mit dem Namen Ihrer Domain beginnen, auf den ein String folgt, dann ein Fragezeichen und zum Schluss wieder ein String:

User-agent: Googlebot

Disallow: /*?

Verwenden Sie zum Blockieren aller URLs, die eine bestimmte Endung aufweisen, das Dollarzeichen ($). Der Beispielcode blockiert alle URLs, die auf .xls enden:

User-agent: Googlebot

Disallow: /*.xls$

Im Beispiel rechts sehen Sie, wie Muster mit den Anweisungen "Allow" und "Disallow" blockieren. In diesem Beispiel gibt ein Fragezeichen (?) eine Sitzungs-ID an. URLs, die diese IDs enthalten, sollten für gewöhnlich für Google blockiert werden, um zu verhindern, dass doppelte Seiten gecrawlt werden. Wenn es sich bei einigen URLs, die auf ? enden, um Versionen der Seite handelt, die Sie einschließen möchten, können Sie die Anweisungen "Allow" und "Disallow" wie folgt kombinieren:

  1. Die Anweisung Allow: /*?$ lässt alle URLs zu, die auf ein Fragezeichen (?) enden. Genauer gesagt lässt sie eine URL zu, die mit dem Namen Ihrer Domain beginnt, gefolgt von einer Zeichenfo, dann einem ? und ohne Zeichen nach dem ?.
  2. Die Anweisung Disallow: / *? blockiert alle URLs, die ein Fragezeichen (?) enthalten. Genauer gesagt blockiert sie eine URL, die mit dem Namen Ihrer Domain beginnt, gefolgt von einer Zeichenfolge, dann einem Fragezeichen und dann wieder einer Zeichenfolge.

User-agent: *

Allow: /*?$

Disallow: /*?

robots.txt-Datei speichern

Speichern Sie die robots.txt-Datei wie folgt, damit der Googlebot und andere Webcrawler sie finden und erkennen können:

  • Speichern Sie den robots.txt-Code als Textdatei.
  • Platzieren Sie die Datei im Verzeichnis der obersten Ebene auf Ihrer Website oder im Stammverzeichnis der Domain.
  • Die robots.txt-Datei muss den Namen robots.txt haben.

Beispiel: Eine robots.txt-Datei im Stammverzeichnis von http://www.ihrebeispielurl.de unter der URL-Adresse http://www.ihrebeispielurl.de/robots.txt wird von Webcrawlern gefunden. Eine robots.txt-Datei unter http://www.ihrebeispielurl.de/kein_stammverzeichnis/robots.txt wird jedoch von keinem Webcrawler gefunden.

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?