​robots.txt-Bericht

Prüfen, ob Google Ihre robots.txt-Dateien verarbeiten kann

Im robots.txt-Bericht sehen Sie, welche robots.txt-Dateien Google für die 20 wichtigsten Hosts auf Ihrer Website gefunden hat, wann sie zuletzt gecrawlt wurden und welche Warnungen oder Fehler bestehen. Der Bericht bietet Ihnen auch die Möglichkeit, in Notfällen ein erneutes Crawlen der robots.txt-Datei anzufordern.

Mit einer robots.txt-Datei wird verhindert, dass Suchmaschinen Ihre Website crawlen. Verwenden Sie das Tag „noindex“, wenn Sie verhindern möchten, dass Inhalte in den Suchergebnissen erscheinen.

Dieser Bericht ist nur für Properties auf Domainebene verfügbar. Das sind entweder

  • Domain-Properties (etwa beispiel.de oder m.beispiel.de) oder
  • URL-Präfix-Properties ohne Pfad, etwa https://beispiel.de/, aber nicht https://beispiel.de/pfad/.

robots.txt-Bericht öffnen

 

robots.txt-Dateien und Crawling-Status ansehen

In einer Domain-Property enthält der Bericht robots.txt-Dateien der 20 wichtigsten Hosts in dieser Property.

Für jede robots.txt-Datei, die von der Search Console geprüft wird, werden die folgenden Informationen angezeigt:

  • Dateipfad: Vollständige URL, unter der Google geprüft hat, ob eine robots.txt-Datei vorhanden ist. URLs werden nur dann im Bericht angezeigt, wenn sie in den letzten 30 Tagen zu irgendeinem Zeitpunkt den Status „Abgerufen“ oder „Nicht abgerufen“ hatten. Siehe Speicherort von robots.txt-Dateien
  • Abrufstatus: Der Status der letzten Abrufanfrage für diese Datei. Folgende Werte sind möglich:
    • Nicht abgerufen – Nicht gefunden (404): Beim Anfordern dieser Datei ist der Fehler 404 (die Datei ist nicht vorhanden) aufgetreten. Wenn Sie unter der aufgeführten URL eine robots.txt-Datei veröffentlicht haben, aber dieser Fehler angezeigt wird, können Sie die URL prüfen, um herauszufinden, ob es Probleme mit der Verfügbarkeit gibt. Eine Datei, die 30 Tage lang den Status Nicht gefunden (404) hat, wird nicht mehr im Bericht angezeigt. Google prüft sie jedoch weiterhin im Hintergrund. Wenn kein robots.txt-Fehler vorliegt, ist das grundsätzlich positiv und bedeutet, dass Google alle URLs auf Ihrer Website crawlen kann. Ausführliche Informationen finden Sie im Artikel zum Verhalten von Google bei einem robots.txt-Fehler.
    • Nicht abgerufen – Anderer Grund: Beim Anfordern dieser Datei ist ein anderes Problem aufgetreten. Siehe Liste der Indexierungsprobleme
    • Abgerufen: Beim letzten Crawl-Versuch wurde eine robots.txt-Datei zurückgegeben. Alle beim Parsen der Datei gefundenen Probleme werden in der Spalte Probleme aufgeführt. Google ignoriert die Zeilen mit Fehlern und verwendet diejenigen, die geparst werden können.
  • Geprüft am: Zeitpunkt, zu dem Google das letzte Mal versucht hat, diese URL zu crawlen, in lokaler Zeit.
  • Größe: Die Größe der abgerufenen Datei in Byte. Wenn der letzte Abrufversuch fehlgeschlagen ist, ist dieses Feld leer.
  • Probleme: In der Tabelle wird die Anzahl der Parsing-Probleme im Dateiinhalt zum Zeitpunkt des letzten Abrufs angezeigt. Fehler verhindern die Anwendung einer Regel. Warnungen verhindern nicht, dass eine Regel angewendet wird. Ausführliche Informationen finden Sie im Artikel zum Verhalten von Google bei einem robots.txt-Fehler. Verwenden Sie zur Behebung von Parsing-Problemen einen robots.txt-Validator.

Letzte abgerufene Version ansehen

Sie können die zuletzt abgerufene Version einer robots.txt-Datei aufrufen, indem Sie sie in der Dateiliste im Bericht anklicken. Falls bei der robots.txt-Datei Fehler oder Warnungen auftreten, werden diese im angezeigten Dateiinhalt hervorgehoben. Mithilfe der Pfeiltasten lassen sich die Fehler und Warnungen durchblättern.

Zuvor abgerufene Versionen ansehen

Sie können sich die Abrufanfragen der letzten 30 Tage für eine bestimmte robots.txt-Datei ansehen, indem Sie in der Dateiliste im Bericht auf die Datei und dann auf Versionen klicken. Klicken Sie auf die gewünschte Version, um den Dateiinhalt aufzurufen. Eine Anfrage wird nur dann in den Verlauf aufgenommen, wenn sich die abgerufene Datei oder das Abrufergebnis von der vorherigen Anfrage zum Dateiabruf unterscheidet.

Wenn beim letzten Abrufversuch ein Abruffehler festgestellt wurde, verwendet Google bis zu 30 Tage lang die zuletzt erfolgreich abgerufene Version ohne Fehler.

Erneutes Crawling anfordern

Sie können ein erneutes Crawling der robots.txt-Datei anfordern, wenn Sie einen Fehler beheben oder eine wichtige Änderung vornehmen.

Wann ein erneutes Crawling angefordert werden sollte

In der Regel müssen Sie kein erneutes Crawling einer robots.txt-Datei anfordern, da Google Ihre robots.txt-Dateien regelmäßig neu crawlt. In den folgenden Fällen kann es jedoch sinnvoll sein, ein erneutes Crawling Ihrer robots.txt-Datei anzufordern:

  • Sie haben Ihre robots.txt-Regeln geändert, um die Blockierung einiger wichtiger URLs aufzuheben, und möchten Google schnell informieren. Beachten Sie jedoch, dass dadurch nicht garantiert ist, dass URLs, deren Blockierung aufgehoben wurde, sofort neu gecrawlt werden.
  • Sie haben einen Abruffehler oder einen anderen kritischen Fehler behoben.

Erneutes Crawling anfordern

Wenn Sie ein erneutes Crawling anfordern möchten, wählen Sie das Symbol „Weitere Einstellungen“ neben einer Datei in der Liste der Robots-Dateien aus und klicken Sie auf Erneutes Crawlen beantragen.

Websites bei Website-Hostingdiensten

Wenn Ihre Website bei einem Website-Hostingdienst gehostet wird, ist es möglicherweise etwas aufwendiger, die robots.txt-Datei zu bearbeiten. Sehen Sie in diesem Fall in der Dokumentation Ihres Websitehosts nach, wie Sie bestimmte Seiten für das Crawlen oder Indexieren durch Google blockieren können. Hinweis: Den meisten Nutzern geht es darum, zu verhindern, dass Dateien in der Google Suche erscheinen, und nicht darum, zu verhindern, dass sie von Google gecrawlt werden. Falls dies auch bei Ihnen zutrifft, suchen Sie bei Ihrem Hostingdienst nach Informationen zum Blockieren von Seiten für Suchmaschinen.

Was passiert, wenn Google Ihre robots.txt-Datei nicht abrufen oder lesen kann

Wenn für eine Domain oder Subdomain keine robots.txt-Datei gefunden wird, geht Google davon aus, dass jede URL innerhalb dieses Hosts gecrawlt werden kann.

Wenn Google eine robots.txt-Datei findet, sie aber nicht abrufen kann, geht Google so vor:

  1. In den ersten zwölf Stunden beendet Google das Crawling der Website, versucht aber weiterhin, die robots.txt-Datei abzurufen.
  2. Wenn Google keine neue Version abrufen kann, verwendet Google für die darauf folgenden 30 Tage die letzte fehlerfreie Version. Gleichzeitig wird weiter versucht, eine neue Version abzurufen. Die letzte fehlerfreie Version finden Sie im Versionsverlauf.
  3. Falls die Fehler nach 30 Tagen nicht behoben sind:
    • Wenn die Website allgemein für Google verfügbar ist, verhält sich Google so, als wäre keine robots.txt-Datei vorhanden. Es wird aber trotzdem regelmäßig nach einer neuen Version gesucht.
    • Wenn die Website Probleme mit der allgemeinen Verfügbarkeit hat, beendet Google das Crawling der Website, fordert aber weiterhin regelmäßig eine robots.txt-Datei an.

Wenn Google eine robots.txt-Datei findet und abrufen kann: Google geht die Datei Zeile für Zeile durch. Wenn eine Zeile einen Fehler enthält oder nicht auf eine robots.txt-Regel hin geparst werden kann, wird sie übersprungen. Wenn die Datei keine gültigen Zeilen enthält, behandelt Google die Datei als leere robots.txt-Datei. Das bedeutet, dass für die Website keine Regeln deklariert werden.

Speicherort von robots.txt-Dateien

Terminologie:

  • Ein Protokoll (auch Schema genannt) ist entweder HTTP oder HTTPS.
  • Ein Host ist der gesamte Teil der URL nach dem Protokoll (http:// oder https://) bis zum Pfad. Der Host m.de.beispiel.de deutet auf drei mögliche Hosts hin: m.de.beispiel.de, de.beispiel.de und beispiel.de. Jeder dieser Hosts kann eine eigene robots.txt-Datei haben.
  • Ein Ursprung ist das Protokoll und der Host zusammen. Beispiel: https://beispiel.de/ oder https://m.beispiel.co.de/

Gemäß RFC 9309 muss sich die robots.txt-Datei auf der Stammebene jeder Kombination aus Protokoll und Host Ihrer Website befinden.

Für eine Domain-Property:

  1. Die Search Console wählt die 20 wichtigsten Hosts aus, sortiert nach der Crawling-Frequenz. Der Bericht kann für jede Domain bis zu zwei Ursprünge enthalten, die Tabelle kann also aus bis zu 40 Zeilen bestehen. Falls Sie die robots.txt-URL für einen Ihrer Hosts nicht finden, erstellen Sie eine Domain-Property für die fehlende Subdomain.
  2. Für jeden Host prüft die Search Console zwei URLs:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Wenn für die robots.txt-Datei unter der angeforderten URL 30 Tage lang Nicht gefunden gemeldet wird, zeigt die Search Console die URL nicht in diesem Bericht an. Google prüft die URL jedoch weiterhin im Hintergrund. Für alle anderen Ergebnisse wird die geprüfte URL im Bericht angezeigt.

Bei einer URL-Präfix-Property auf Hostebene wie https://beispiel.de/ prüft die Search Console nur einen einzelnen Ursprung für diese Property. Das heißt: Für die Property https://beispiel.de wird in der Search Console nur https://beispiel.de/robots.txt geprüft, nicht http://beispiel.de/robots.txt oder https://m.beispiel.de/robots.txt.

Häufige Aufgaben

robots.txt-Datei aufrufen

Klicken Sie zum Öffnen einer in diesem Bericht aufgeführten robots.txt-Datei in der Liste der robots.txt-Dateien auf die Datei. Wenn Sie die Datei in Ihrem Browser öffnen möchten, klicken Sie auf Live verfügbare robots.txt-Datei öffnen.

Sie können beliebige robots.txt-Dateien im Web in Ihrem Browser öffnen. Weiter unten erfahren Sie, welche URL Sie aufrufen müssen.

Speicherorte von robots.txt-Dateien

Die robots.txt-Datei befindet sich auf der Stammebene eines Protokolls und einer Domain. Entfernen Sie zum Ermitteln der URL alles in der URL einer Datei, was auf den Host und optional den Port folgt, und fügen Sie „/robots.txt“ hinzu. Sie können die robots.txt-Datei auch in einem Browser aufrufen, falls vorhanden. robots.txt-Dateien werden nicht von Subdomains oder übergeordneten Domains übernommen und nur eine robots.txt-Datei kann für eine einzelne Seite gelten. Beispiele:

Datei-URL URL der robots.txt-Datei, die für diese Datei gelten kann
http://beispiel.de/startseite http://beispiel.de/robots.txt
https://m.de.beispiel.de/eine/seite/hier/meineseite https://m.de.beispiel.de/robots.txt
https://beispiel.de?pageid=234#meinanchor https://beispiel.de/robots.txt
https://bilder.beispiel.de/blumen/narzisse.png https://bilder.beispiel.de/robots.txt

Herausfinden, welche robots.txt-Datei für eine Seite oder ein Bild gilt

So ermitteln Sie die URL der robots.txt-Datei, die für eine Seite oder ein Bild gilt:

  1. Ermitteln Sie die genaue URL der Seite oder des Bildes. Klicken Sie für ein Bild in Google Chrome mit der rechten Maustaste darauf und wählen Sie Bild-URL kopieren aus.
  2. Entfernen Sie das Ende der URL nach der Top-Level-Domain (z. B. .de, .org, .co.il) und fügen Sie am Ende /robots.txt hinzu. Die robots.txt-Datei für https://bilder.beispiel.de/blumen/narzisse.png lautet also: https://bilder.beispiel.de/robots.txt
  3. Öffnen Sie die URL in Ihrem Browser, um zu prüfen, ob sie existiert. Wenn Ihr Browser die Datei nicht öffnen kann, existiert sie nicht.

Testen, ob Google durch eine robots.txt-Datei blockiert wird

  • Wenn Sie testen möchten, ob eine bestimmte URL von einer robots.txt-Datei blockiert wird, können Sie die Verfügbarkeit der URL mit dem URL-Prüftool prüfen.
  • Wenn Sie eine bestimmte robots.txt-Regel mit einer Datei testen möchten, die noch nicht im Web verfügbar ist, oder eine neue Regel testen möchten, können Sie einen robots.txt-Tester von einem Drittanbieter verwenden.

Weitere Informationen

War das hilfreich?

Wie können wir die Seite verbessern?

Benötigen Sie weitere Hilfe?

Mögliche weitere Schritte:

Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü