Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü
true

URLs mit robots.txt blockieren

Robots – Häufig gestellte Fragen (FAQs)

Allgemeine Fragen zu Robots

Fragen zur robots.txt-Datei

Fragen zu Robots-Meta-Tags

Fragen zum X-Robots-Tag-HTTP-Header

Haben wir eine wichtige häufig gestellte Frage nicht beantwortet? Falls Sie weitere Hilfe benötigen, stellen Sie Ihre Frage gern im Webmaster-Hilfeforum.

Allgemeine Fragen zu Robots

Benötigt meine Website eine robots.txt-Datei?

Nein. Wenn der Googlebot eine Website besucht, wird zuerst um eine Erlaubnis zum Crawlen gebeten, indem versucht wird, die robots.txt-Datei abzurufen. Websites ohne robots.txt-Datei, Robots-Meta-Tags oder X-Robots-Tag-HTTP-Header werden im Allgemeinen ganz normal gecrawlt und indexiert.

Welche Methode sollte ich verwenden?

Das ist unterschiedlich. Es gibt gute Gründe für die Verwendung jeder dieser Methoden:

  1. robots.txt: Verwenden Sie diese Methode, falls das Crawlen Ihrer Inhalte auf Ihrem Server Probleme verursacht. Beispielsweise ist es sinnvoll, das Crawlen der Skripts von unendlichen Kalendern zu unterbinden. Sie sollten die robots.txt-Datei nicht verwenden, um private Inhalte zu blockieren (nutzen Sie stattdessen die serverseitige Authentifizierung) oder die Kanonisierung festzulegen (siehe Hilfe). Falls Sie sichergehen müssen, dass eine URL nicht indexiert wird, verwenden Sie stattdessen das Robots-Meta-Tag oder den X-Robots-Tag-HTTP-Header.
  2. Robots-Meta-Tag: Verwenden Sie diese Methode, falls Sie steuern müssen, wie eine einzelne HTML-Seite in den Suchergebnissen angezeigt wird, oder um sich zu vergewissern, dass sie nicht angezeigt wird.
  3. X-Robots-Tag-HTTP-Header: Verwenden Sie diese Methode, falls Sie steuern müssen, wie Nicht-HTML-Inhalte in den Suchergebnissen angezeigt werden, oder um sich zu vergewissern, dass sie nicht angezeigt werden.

Kann ich mithilfe dieser Methoden die Website einer anderen Person entfernen?

Nein. Diese Methoden gelten nur für Websites, auf denen Sie den Code ändern oder Dateien hinzufügen können. Falls Sie Inhalte von der Website eines Dritten entfernen möchten, müssen Sie den Webmaster darum bitten.

Wie kann ich das Crawlen meiner Website durch Google verlangsamen?

Sie können die Einstellung für die Crawling-Frequenz in der Regel in Ihrem Google Search Console-Konto anpassen.

Fragen zur robots.txt-Datei

Ich verwende dieselbe robots.txt-Datei für mehrere Websites. Kann ich eine vollständige URL statt eines relativen Pfads verwenden?

Nein. Die Anweisungen in der robots.txt-Datei, mit Ausnahme von "Sitemap:", gelten nur für relative Pfade.

Kann ich die robots.txt-Datei in einem Unterverzeichnis ablegen?

Nein. Die Datei muss im obersten Verzeichnis der Website gespeichert werden.

Ich möchte einen privaten Ordner sperren. Kann ich andere daran hindern, meine robots.txt-Datei zu lesen?

Nein, die robots.txt-Datei kann von verschiedenen Nutzern gelesen werden. Falls die Ordner oder Dateinamen von Inhalten nicht öffentlich sein sollen, sollten sie nicht in der robots.txt-Datei aufgeführt werden. Es wird davon abgeraten, auf der Grundlage des User-Agents oder sonstiger Attribute verschiedene robots.txt-Dateien bereitzustellen.

Muss ich eine allow-Anweisung verwenden, um das Crawling zu gestatten?

Nein, Sie brauchen keine allow-Anweisung zu verwenden. Die allow-Anweisung dient zur Außerkraftsetzung von disallow-Anweisungen in derselben robots.txt-Datei.

Was geschieht, wenn meine robots.txt-Datei einen Fehler enthält oder ich eine nicht unterstützte Anweisung verwende?

Web-Crawler sind in der Regel sehr flexibel und werden normalerweise nicht durch geringfügige Fehler in der robots.txt-Datei außer Gefecht gesetzt. Im Allgemeinen kann nichts Schlimmeres passieren, als dass fehlerhafte oder nicht unterstützte Anweisungen ignoriert werden. Bedenken Sie, dass Google bei der Interpretation einer robots.txt-Datei keine Gedanken lesen kann, wir müssen die abgerufene robots.txt-Datei auswerten. Sollten Ihnen also Probleme in Ihrer robots.txt-Datei bekannt sein: Diese sind normalerweise einfach zu beheben.

Mit welchem Programm sollte ich die robots.txt-Datei erstellen?

Sie können jedes Programm verwenden, mit dem Sie eine gültige Textdatei erstellen können. Gängige Programme zur Erstellung von robots.txt-Dateien sind beispielsweise Editor, Textedit, vi oder Emacs. Die Google Search Console enthält ein Tool zum Erstellen einer robots.txt-Datei für Ihre Website. Sobald die robots.txt-Datei auf der Website platziert wurde, können Sie die Gültigkeit mithilfe der Funktion Abruf wie durch Googlebot in der Google Search Console überprüfen. Die Google Search Console kann auch beim Erstellen einer robots.txt-Datei helfen.

Wenn ich das Crawling einer Seite durch Google mithilfe einer disallow-Anweisung in robots.txt verhindere, verschwindet die Seite dann aus den Suchergebnissen?

Durch das Sperren einer Seite für das Crawlen durch Google verschlechtert sich wahrscheinlich deren Ranking. Es ist auch möglich, dass sie mit der Zeit gar nicht mehr aufgeführt wird. Außerdem werden eventuell im Text unterhalb des Suchergebnisses weniger Details angegeben. Dies liegt daran, dass der Suchmaschine ohne den Inhalt der Seite viel weniger Informationen zur Verfügung stehen.

Allerdings garantiert die disallow-Anweisung in robots.txt nicht, dass eine Seite nicht in den Ergebnissen erscheint. Google kann auf der Grundlage externer Informationen, wie z. B. eingehender Links, entscheiden, dass die Seite relevant ist. Wenn Sie das Indexieren einer Seite explizit blockieren möchten, verwenden Sie stattdessen das Robots-Meta-Tag noindex oder den X-Robots-Tag-HTTP-Header. Sie sollten in diesem Fall die Seite nicht mit "disallow" in der robots.txt-Datei sperren, da die Seite gecrawlt werden muss, damit das Tag erkannt und befolgt werden kann.

Wie lange dauert es, bis sich Änderungen an meiner robots.txt-Datei auf meine Suchergebnisse auswirken?

Der Cache der robots.txt-Datei muss zunächst aktualisiert werden. Die Inhalte werden in der Regel maximal einen Tag im Cache gespeichert. Das Crawling und die Indexierung sind komplizierte Prozesse, die bei bestimmten URLs manchmal recht lange dauern können. Daher können wir nicht genau angeben, wann nach der Erkennung der Änderungen diese wirksam werden. Beachten Sie außerdem, dass eine URL auch dann in den Suchergebnissen angezeigt werden kann, wenn wir sie nicht crawlen können, weil Ihre robots.txt-Datei dies nicht zulässt. Wenn Sie die Löschung der Seiten, die Sie für Google blockiert haben, beschleunigen möchten, reichen Sie über die Google Search Console einen Löschantrag ein.

Wie lege ich in der robots.txt-Datei AJAX-Crawling-URLs fest?

Beim Angeben von URLs, die das AJAX-Crawlingschema verwenden, müssen Sie die gecrawlten URLs verwenden.

Wie kann ich das Crawling meiner Website vorübergehend komplett aussetzen?

Sie können das Crawling vorübergehend komplett aussetzen, indem Sie für URLs, auch für die robots.txt-Datei, den HTTP-Ergebniscode 503 zurückgeben. Es wird in regelmäßigen Abständen erneut versucht, die robots.txt-Datei abzurufen, bis der Zugriff wieder möglich ist. Wir raten davon ab, das Crawling über Ihre robots.txt-Datei zu unterbinden.

Mein Server unterscheidet nicht zwischen Groß- und Kleinschreibung. Wie kann ich das Crawlen einiger Ordner gänzlich unterbinden?

Die Anweisungen in der robots.txt-Datei unterscheiden zwischen Groß- und Kleinschreibung. In diesem Fall sollten Sie mithilfe von Kanonisierungsmethoden dafür sorgen, dass nur eine Version der URL indexiert wird. Auf diese Weise können Sie Ihre robots.txt-Datei vereinfachen. Sollte dies nicht möglich sein, empfehlen wir, häufige Varianten des Ordnernamens aufzuführen oder ihn so weit wie möglich zu kürzen. Geben Sie nur die ersten paar Zeichen statt des vollständigen Namens an. Statt alle groß- oder kleingeschriebenen Varianten von "/MeinPersönlicherOrdner" anzugeben, könnten Sie beispielsweise die Varianten von "/MeinP" angeben, sofern Sie sicher sind, dass es keine anderen crawlbaren URLs gibt, die mit diesen Buchstaben beginnen. Wahlweise können Sie auch ein Robots-Meta-Tag oder einen X-Robots-Tag-HTTP-Header verwenden, sofern das Crawling kein Problem darstellt.

Meine Website gibt für alle URLs, auch für die robots.txt-Datei, "403 Forbidden" zurück. Warum wird die Website dennoch gecrawlt?

Der HTTP-Ergebniscode 403 wird wie alle anderen HTTP-Ergebniscodes des Typs "4xx" so interpretiert, dass keine robots.txt-Datei existiert. Daher gehen die Crawler generell davon aus, dass alle URLs der Website gecrawlt werden können. Damit das Crawlen einer Website unterbunden werden kann, muss die robots.txt-Datei normal zurückgegeben werden, d. h. mit dem HTTP-Ergebniscode "200 OK", und eine gültige "disallow"-Anweisung enthalten.

Fragen zu Robots-Meta-Tags

Kann das Robots-Meta-Tag die robots.txt-Datei ersetzen?

Nein, die robots.txt-Datei legt fest, auf welche Seiten zugegriffen wird. Das Robots-Meta-Tag steuert, ob eine Seite indexiert wird. Damit dieses Tag erkannt wird, muss die Seite jedoch gecrawlt werden. Sollte das Crawlen einer Seite problematisch sein, beispielsweise, weil die Seite eine starke Auslastung des Servers bewirkt, verwenden Sie die robots.txt-Datei. Falls es nur darum geht, ob eine Seite in den Suchergebnissen angezeigt wird, können Sie das Robots-Meta-Tag verwenden.

Kann mit dem Robots-Meta-Tag verhindert werden, dass ein Teil einer Seite indexiert wird?

Nein, beim Robots-Meta-Tag handelt es sich um eine Einstellung auf Seitenebene.

Kann ich das Robots-Meta-Tag außerhalb eines <head>-Abschnitts verwenden?

Nein, das Robots-Meta-Tag muss sich derzeit im <head>-Abschnitt einer Seite befinden.

Wird das Crawling durch das Robots-Meta-Tag unzulässig?

Nein. Selbst wenn das Robots-Meta-Tag derzeit noindex angibt, müssen wir diese URL gelegentlich erneut crawlen, um zu prüfen, ob das Meta-Tag geändert wurde.

Was ist der Unterschied zwischen dem Robots-Meta-Tag nofollow und dem Linkattribut rel="nofollow"?

Das Robots-Meta-Tag nofollow gilt für alle Links auf einer Seite. Das Linkattribut rel="nofollow" bezieht sich nur auf bestimmte Links auf einer Seite. Weitere Informationen zum Linkattribut rel="nofollow" finden Sie in den Hilfeartikeln zu nutzergeneriertem Spam und zu rel="nofollow".

Fragen zum X-Robots-Tag-HTTP-Header

Wie kann ich das X-Robots-Tag für eine URL prüfen?

Eine einfache Möglichkeit zum Prüfen der Server-Header ist die Verwendung eines webbasierten Server-Header-Prüftools oder der Funktion Abruf wie durch Googlebot in der Google Search Console.

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?