Im robots.txt-Bericht sehen Sie, welche robots.txt-Dateien Google für die 20 wichtigsten Hosts auf Ihrer Website gefunden hat, wann sie zuletzt gecrawlt wurden und welche Warnungen oder Fehler bestehen. Der Bericht bietet Ihnen auch die Möglichkeit, in Notfällen ein erneutes Crawlen der robots.txt-Datei anzufordern.
Dieser Bericht ist nur für Properties auf Domainebene verfügbar. Das sind entweder
- Domain-Properties (etwa beispiel.de oder m.beispiel.de) oder
- URL-Präfix-Properties ohne Pfad, etwa https://beispiel.de/, aber nicht https://beispiel.de/pfad/.
robots.txt-Dateien und Crawling-Status ansehen
In einer Domain-Property enthält der Bericht robots.txt-Dateien der 20 wichtigsten Hosts in dieser Property.
Für jede robots.txt-Datei, die von der Search Console geprüft wird, werden die folgenden Informationen angezeigt:
- Dateipfad: Vollständige URL, unter der Google geprüft hat, ob eine robots.txt-Datei vorhanden ist. URLs werden nur dann im Bericht angezeigt, wenn sie in den letzten 30 Tagen zu irgendeinem Zeitpunkt den Status „Abgerufen“ oder „Nicht abgerufen“ hatten. Siehe Speicherort von robots.txt-Dateien
- Abrufstatus: Der Status der letzten Abrufanfrage für diese Datei. Folgende Werte sind möglich:
- Nicht abgerufen – Nicht gefunden (404): Beim Anfordern dieser Datei ist der Fehler 404 (die Datei ist nicht vorhanden) aufgetreten. Wenn Sie unter der aufgeführten URL eine robots.txt-Datei veröffentlicht haben, aber dieser Fehler angezeigt wird, können Sie die URL prüfen, um herauszufinden, ob es Probleme mit der Verfügbarkeit gibt. Eine Datei, die 30 Tage lang den Status Nicht gefunden (404) hat, wird nicht mehr im Bericht angezeigt. Google prüft sie jedoch weiterhin im Hintergrund. Wenn Sie keine robots.txt-Datei haben, ist das in Ordnung und bedeutet, dass Google alle URLs auf Ihrer Website crawlen kann. Ausführliche Informationen finden Sie im Artikel zum Verhalten von Google bei einem robots.txt-Fehler.
- Nicht abgerufen – Anderer Grund: Beim Anfordern dieser Datei ist ein anderes Problem aufgetreten. Siehe Liste der Indexierungsprobleme
- Abgerufen: Beim letzten Crawl-Versuch wurde eine robots.txt-Datei zurückgegeben. Alle beim Parsen der Datei gefundenen Probleme werden in der Spalte Probleme aufgeführt. Google ignoriert die Zeilen mit Fehlern und verwendet diejenigen, die geparst werden können.
- Geprüft am: Zeitpunkt, zu dem Google das letzte Mal versucht hat, diese URL zu crawlen, in lokaler Zeit.
- Größe: Die Größe der abgerufenen Datei in Byte. Wenn der letzte Abrufversuch fehlgeschlagen ist, ist dieses Feld leer.
- Probleme: In der Tabelle wird die Anzahl der Parsing-Probleme im Dateiinhalt zum Zeitpunkt des letzten Abrufs angezeigt. Fehler verhindern die Anwendung einer Regel. Warnungen verhindern nicht, dass eine Regel angewendet wird. Ausführliche Informationen finden Sie im Artikel zum Verhalten von Google bei einem robots.txt-Fehler. Verwenden Sie zur Behebung von Parsing-Problemen einen robots.txt-Validator.
Letzte abgerufene Version ansehen
Sie können die zuletzt abgerufene Version einer robots.txt-Datei aufrufen, indem Sie sie in der Dateiliste im Bericht anklicken. Falls bei der robots.txt-Datei Fehler oder Warnungen auftreten, werden diese im angezeigten Dateiinhalt hervorgehoben. Mithilfe der Pfeiltasten lassen sich die Fehler und Warnungen durchblättern.
Zuvor abgerufene Versionen ansehen
Sie können sich die Abrufanfragen der letzten 30 Tage für eine bestimmte robots.txt-Datei ansehen, indem Sie in der Dateiliste im Bericht auf die Datei und dann auf Versionen klicken. Klicken Sie auf die gewünschte Version, um den Dateiinhalt aufzurufen. Eine Anfrage wird nur dann in den Verlauf aufgenommen, wenn sich die abgerufene Datei oder das Abrufergebnis von der vorherigen Anfrage zum Dateiabruf unterscheidet.
Wenn beim letzten Abrufversuch ein Abruffehler festgestellt wurde, verwendet Google bis zu 30 Tage lang die zuletzt erfolgreich abgerufene Version ohne Fehler.
Erneutes Crawling anfordern
Sie können ein erneutes Crawling der robots.txt-Datei anfordern, wenn Sie einen Fehler beheben oder eine wichtige Änderung vornehmen.
Wann ein erneutes Crawling angefordert werden sollte
In der Regel müssen Sie kein erneutes Crawling einer robots.txt-Datei anfordern, da Google Ihre robots.txt-Dateien regelmäßig neu crawlt. In den folgenden Fällen kann es jedoch sinnvoll sein, ein erneutes Crawling Ihrer robots.txt-Datei anzufordern:
- Sie haben Ihre robots.txt-Regeln geändert, um die Blockierung einiger wichtiger URLs aufzuheben, und möchten Google schnell informieren. Beachten Sie jedoch, dass dadurch nicht garantiert ist, dass URLs, deren Blockierung aufgehoben wurde, sofort neu gecrawlt werden.
- Sie haben einen Abruffehler oder einen anderen kritischen Fehler behoben.
Erneutes Crawling anfordern
Wenn Sie ein erneutes Crawling anfordern möchten, wählen Sie das Symbol „Weitere Einstellungen“ neben einer Datei in der Liste der Robots-Dateien aus und klicken Sie auf Erneutes Crawlen beantragen.
Websites bei Website-Hostingdiensten
Wenn Ihre Website bei einem Website-Hostingdienst gehostet wird, ist es möglicherweise etwas aufwendiger, die robots.txt-Datei zu bearbeiten. Sehen Sie in diesem Fall in der Dokumentation Ihres Websitehosts nach, wie Sie bestimmte Seiten für das Crawlen oder Indexieren durch Google blockieren können.
Speicherort von robots.txt-Dateien
Terminologie:
- Ein Protokoll (auch Schema genannt) ist entweder HTTP oder HTTPS.
- Ein Host ist der gesamte Teil der URL nach dem Protokoll (http:// oder https://) bis zum Pfad. Der Host m.de.beispiel.de deutet auf drei mögliche Hosts hin: m.de.beispiel.de, de.beispiel.de und beispiel.de. Jeder dieser Hosts kann eine eigene robots.txt-Datei haben.
- Ein Ursprung ist das Protokoll und der Host zusammen. Beispiel: https://beispiel.de/ oder https://m.beispiel.co.de/
Gemäß RFC 9309 muss sich die robots.txt-Datei auf der Stammebene jeder Kombination aus Protokoll und Host Ihrer Website befinden.
- Die Search Console wählt die 20 wichtigsten Hosts aus, sortiert nach der Crawling-Frequenz. Der Bericht kann für jede Domain bis zu 2 Ursprünge enthalten, die Tabelle kann also aus bis zu 40 Zeilen bestehen. Falls Sie die robots.txt-URL für einen Ihrer Hosts nicht finden, erstellen Sie eine Domain-Property für die fehlende Subdomain.
- Für jeden Host prüft die Search Console zwei URLs:
- http://<host>/robots.txt
- https://<host>/robots.txt
- Wenn für die robots.txt-Datei unter der angeforderten URL 30 Tage lang Nicht gefunden gemeldet wird, zeigt die Search Console die URL nicht in diesem Bericht an. Google prüft die URL jedoch weiterhin im Hintergrund. Für alle anderen Ergebnisse wird die geprüfte URL im Bericht angezeigt.
Bei einer URL-Präfix-Property auf Hostebene wie https://beispiel.de/ prüft die Search Console nur einen einzelnen Ursprung für diese Property. Das heißt: Für die Property https://beispiel.de wird in der Search Console nur https://example.com/robots.txt geprüft, nicht http://beispiel.de/robots.txt oder https://m.beispiel.de/robots.txt.
Häufige Aufgaben
robots.txt-Datei aufrufen
Klicken Sie zum Öffnen einer in diesem Bericht aufgeführten robots.txt-Datei in der Liste der robots.txt-Dateien auf die Datei. Wenn Sie die Datei in Ihrem Browser öffnen möchten, klicken Sie auf Live verfügbare robots.txt-Datei öffnen.
Sie können beliebige robots.txt-Dateien im Web in Ihrem Browser öffnen. Weiter unten erfahren Sie, welche URL Sie aufrufen müssen.
Speicherorte von robots.txt-Dateien
Die robots.txt-Datei befindet sich auf der Stammebene eines Protokolls und einer Domain. Entfernen Sie zum Ermitteln der URL alles in der URL einer Datei, was auf den Host und optional den Port folgt, und fügen Sie „/robots.txt“ hinzu. Sie können die robots.txt-Datei auch in einem Browser aufrufen, falls vorhanden. robots.txt-Dateien werden nicht von Subdomains oder übergeordneten Domains übernommen und nur eine robots.txt-Datei kann für eine einzelne Seite gelten. Beispiele:
Datei-URL | URL der robots.txt-Datei, die für diese Datei gelten kann |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://beispiel.de?pageid=234#meinanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
Herausfinden, welche robots.txt-Datei für eine Seite oder ein Bild gilt
So ermitteln Sie die URL der robots.txt-Datei, die für eine Seite oder ein Bild gilt:
- Ermitteln Sie die genaue URL der Seite oder des Bildes. Klicken Sie für ein Bild in Google Chrome mit der rechten Maustaste darauf und wählen Sie Bild-URL kopieren aus.
- Entfernen Sie das Ende der URL nach der Top-Level-Domain (z. B. .de, .org, .co.il) und fügen Sie am Ende /robots.txt hinzu. Die robots.txt-Datei für https://bilder.beispiel.de/blumen/narzisse.png lautet also: https://bilder.beispiel.de/robots.txt
- Öffnen Sie die URL in Ihrem Browser, um zu prüfen, ob sie existiert. Wenn Ihr Browser die Datei nicht öffnen kann, existiert sie nicht.
Testen, ob Google durch eine robots.txt-Datei blockiert wird
- Wenn Sie testen möchten, ob eine bestimmte URL von einer robots.txt-Datei blockiert wird, können Sie die Verfügbarkeit der URL mit dem URL-Prüftool prüfen.
- Entwicklern empfehlen wir die Open-Source-Bibliothek „robots.txt“ von Google, die auch in der Google Suche verwendet wird. Mit diesem Tool können Sie robots.txt-Dateien lokal auf Ihrem Computer testen.
Weitere Informationen
- Was ist eine robots.txt-Datei und wie wird sie verwendet?
- Anleitung zum Implementieren einer robots.txt-Datei