Bericht „Crawling-Statistiken“

Im Bericht „Crawling-Statistiken“ finden Sie Statistikdaten zum Crawling-Verlauf von Google auf Ihrer Website. Solche Statistikdaten sind z. B. die Anzahl und der Zeitpunkt von Anfragen, die entsprechende Serverantwort und aufgetretene Verfügbarkeitsprobleme. Dem Bericht können Sie entnehmen, ob beim Crawling Ihrer Website durch Google Auslieferungsprobleme aufgetreten sind.

Der Bericht richtet sich an fortgeschrittene Nutzer. Bei Websites mit weniger als 1.000 Seiten brauchen Sie den Bericht wahrscheinlich nicht zu verwenden. So genaue Crawling-Informationen sind dann normalerweise nicht erforderlich.

Dieser Bericht ist nur für Properties auf Stammebene verfügbar. Das heißt, die Property muss entweder eine Domain-Property (z. B. beispiel.de oder m.beispiel.de) oder eine URL-Präfix-Property auf Stammebene sein (https://beispiel.de, http://beispiel.de, http://m.beispiel.de).

Bericht „Crawling-Statistiken“ öffnen

 

Klicken Sie zum Aufrufen des Berichts „Crawling-Statistiken“ in der Search Console auf Einstellungen (Property-Einstellungen) > Crawling-Statistiken.

Einstieg

Bevor Sie den Bericht verwenden, sollten Sie mit folgenden Informationen vertraut sein:

Informationen zu den Daten

  • Es werden nur URLs angezeigt und gezählt, die tatsächlich von Google angefordert wurden. Im Unterschied zu anderen Berichten werden kanonischen URLs keine Daten zugewiesen.
  • Falls eine URL eine Weiterleitung enthält, wird jede Anfrage in der Weiterleitungskette als separate Anfrage gezählt. Wenn beispielsweise Seite 1 auf Seite 2 weiterleitet, die wiederum auf Seite 3 weiterleitet, werden bei Anforderung von Seite 1 durch Google separate Anfragen für Seite 1 (Antwort 301/302), Seite 2 (Antwort 301/302) und Seite 3 (hoffentlich Antwort 200) aufgeführt. Es werden nur Seiten der aktuellen Domain angezeigt.
  • Vorgesehene Crawling-Vorgänge, die jedoch nicht ausgeführt wurden, da robots.txt nicht verfügbar war, sind zwar in der Summe der Crawling-Vorgänge enthalten, aber nicht in den Abschnitten mit den Crawling-Details. Weitere Informationen
  • Ressourcen und Geltungsbereich:
    • Alle Daten sind auf die aktuell ausgewählte Domain beschränkt. Anfragen an andere Domains werden nicht angezeigt. Hierzu zählen auch Anfragen für Seitenressourcen (z. B. Bilder), die außerhalb dieser Property gehostet werden. Wenn Ihre Seite example.com/mypage beispielsweise das Bild google.com/img.png enthält, ist die Anfrage nach google.com/img.png im Bericht „Crawling-Statistiken“ für die Property example.com nicht enthalten.
    • Ebenso werden Anfragen an eine Domain auf gleicher Ebene (z. B. en.example und de.example) nicht aufgeführt. Wenn Sie sich also den Bericht „Crawling-Statistiken“ für en.example ansehen, werden Anfragen nach einem Bild auf de.example nicht angezeigt.
    • Anfragen zwischen Subdomains sind jedoch von der übergeordneten Domain aus zu sehen. Wenn Sie also z. B. Daten für example.com aufrufen, werden alle Anfragen an example.com, en.example, de.example.com und alle anderen untergeordneten Domains auf allen Ebenen unterhalb von example.com angezeigt.
    • Wenn dagegen die Ressourcen Ihrer Property von einer Seite in einer anderen Domain verwendet werden, sehen Sie möglicherweise mit der Hostseite verbundene Crawling-Anfragen. Dabei wird jedoch kein Kontext angezeigt, der angibt, dass die Ressource gecrawlt wird, da sie von einer Seite in einer anderen Domain verwendet wird. Das heißt, Sie sehen nicht, dass das Bild „example.com/imageX.png“ gecrawlt wurde, weil es sich auf der Seite „anotherexample.com/mypage“ befindet.
    • Crawling-Daten umfassen sowohl http- als auch https-Protokolle, auch für URL-Präfix-Properties. Das bedeutet, dass der Bericht „Crawling-Statistiken“ für http://example.com sowohl Anfragen an http://example.com als auch an https://example.com enthält. Allerdings sind die Beispiel-URLs für URL-Präfix-Properties auf das für die Property festgelegte Protokoll (http oder https) beschränkt.
Bekanntes Problem: Auch wenn derzeit die meisten Crawling-Anfragen im Bericht „Crawling-Statistiken“ aufgeführt sind, kann es trotzdem vorkommen, dass manche Anfragen nicht gezählt werden. Die Gründe dafür sind vielfältig. Wir gehen davon aus, dass sich unsere Abdeckung im Lauf der Zeit weiter erhöht und später einmal die meisten oder sogar alle Anfragen umfassen wird. Deshalb können die Anfrageprotokolle Ihrer Website und die hier aufgeführten Zahlen leicht voneinander abweichen.

Bericht verwenden

Sie können auf einen Tabelleneintrag klicken, um die zugehörige Detailansicht aufzurufen, einschließlich einer Liste von Beispiel-URLs. Wenn Sie auf eine URL klicken, sehen Sie Details zur entsprechenden Crawling-Anfrage. Wenn Sie beispielsweise in der Tabelle mit den nach Typ gruppierten Antworten auf die Zeile HTML klicken, sehen Sie aggregierte Crawling-Informationen für alle auf Ihrer Website gecrawlten HTML-Seiten. Außerdem werden für eine Auswahl der URLs Details wie Crawling-Zeitpunkt, Antwortcode und Antwortgröße angezeigt.

Hosts und untergeordnete Domains

Wenn sich Ihre Property auf Domainebene befindet (example.com, http://example.com, https://m.example.com) und mindestens zwei untergeordnete Domains enthält (z. B. fr.example.com und de.example.com), können Sie sich Daten für die übergeordnete Domain ansehen, die alle untergeordneten Domains beinhaltet. Sie haben aber auch die Möglichkeit, Daten für eine einzelne untergeordnete Domain aufzurufen.

Klicken Sie dazu auf der Landingpage der übergeordneten Domain in der Liste Hosts auf die entsprechende untergeordnete Domain. Es werden nur die 20 untergeordneten Domains mit den meisten Zugriffen in den letzten 90 Tagen aufgeführt.

Beispiel-URLs

Sie können auf jeden nach Datentyp gruppierten Eintrag (Antwort, Dateityp, Zweck, Googlebot-Typ) klicken, um eine Liste mit Beispiel-URLs für diesen Typ aufzurufen.

Beispiel-URLs sind nicht umfassend, sondern nur ein repräsentativer Ausschnitt. Wenn eine URL nicht aufgeführt ist, heißt das nicht, dass sie nicht angefragt wurde. Die Anzahl der Beispiele kann nach Tag gewichtet sein, sodass es für einige Arten von Anfragen unter Umständen mehr Beispiele gibt als für andere. Das sollte sich im Lauf der Zeit ausgleichen.

Crawling-Anfragen insgesamt

Die Gesamtzahl der Crawling-Anfragen nach URLs Ihrer Website, unabhängig von deren Erfolg. Enthalten sind Anfragen zu Ressourcen, die von der Seite verwendet werden, sofern sich diese Ressourcen auf Ihrer Website selbst befinden. Anfragen zu Ressourcen, die außerhalb Ihrer Website gehostet werden, werden nicht gezählt. Doppelte Anfragen nach derselben URL werden einzeln gezählt. Wenn es Verfügbarkeitsprobleme mit der robots.txt-Datei gibt, werden potenzielle Abrufe gezählt.

Beispiele für nicht erfolgreich gezählte Anfragen:

Gesamtgröße des Downloads

Gesamtzahl der während des Crawlings von Ihrer Website heruntergeladenen Bytes für den angegebenen Zeitraum. Hat Google eine Seitenressource, die von mehreren Seiten verwendet wird, im Cache gespeichert, wird sie nur beim ersten Mal angefordert – also beim Speichern im Cache.

Durchschnittliche Reaktionszeit

Durchschnittliche Reaktionszeit für alle Ressourcen, die im angegebenen Zeitraum von Ihrer Website abgerufen wurden. Jede mit einer Seite verknüpfte Ressource wird als separate Antwort gezählt.

Hoststatus

Der Hoststatus beschreibt, ob Google beim Crawlen Ihrer Website auf Verfügbarkeitsprobleme gestoßen ist. Er kann einen der folgenden Werte annehmen:

  • No significant availability issues icon
    Google hat in den letzten 90 Tagen keine nennenswerten Probleme mit der Crawling-Verfügbarkeit auf Ihrer Website feststellen können. Gut gemacht! Hier müssen Sie nichts weiter tun.
  • Some availability issues, but not recently
    Google hat in den letzten 90 Tagen auf Ihrer Website mindestens ein nennenswertes Problem mit der Crawling-Verfügbarkeit erkannt, das aber bereits vor mehr als einer Woche aufgetreten ist. Eventuell handelte es sich um ein vorübergehendes Problem oder wurde inzwischen behoben. Sehen Sie in der Tabelle Nach Antwort nach, welche Probleme aufgetreten sind, und entscheiden Sie, ob Sie Maßnahmen ergreifen müssen.
  • Recent availability issue
    Google hat in der vergangenen Woche mindestens ein nennenswertes Problem mit der Crawling-Verfügbarkeit erkannt. Da der Fehler erst vor Kurzem aufgetreten ist, sollten Sie herausfinden, ob es sich um ein wiederkehrendes Problem handelt. Sehen Sie in der Tabelle Antwort nach, welche Probleme aufgetreten sind, und entscheiden Sie, ob Sie Maßnahmen ergreifen müssen.
Darauf sollten Sie achten

Der Hoststatus sollte im Idealfall grün sein. Falls der Verfügbarkeitsstatus rot ist, klicken Sie darauf, um Details zur Verfügbarkeit der robots.txt-Datei, zur DNS-Auflösung und zur Hostverbindung zu sehen.

Details zum Hoststatus

Der Verfügbarkeitsstatus des Hosts wird in den folgenden Kategorien bewertet. Ein wesentlicher Fehler in einer Kategorie kann einen niedrigeren Verfügbarkeitsstatus zur Folge haben. Klicken Sie im Bericht auf eine Kategorie, um Details zu sehen.

Für jede Kategorie wird ein Diagramm mit Crawling-Daten für den jeweiligen Zeitraum angezeigt. Es enthält eine gepunktete rote Linie. Liegt der Messwert für die betreffende Kategorie über dieser Linie – wenn beispielsweise die DNS-Auflösung an einem bestimmten Tag bei mehr als 5 % aller Anfragen fehlschlägt –, gilt das als Problem für diese Kategorie. Der Status zeigt dann, wie lange es her ist, dass das Problem zuletzt aufgetreten ist.

  • robots.txt-Abruf
    Das Diagramm zeigt die Fehlerrate für robots.txt-Anfragen bei einem Crawling. Google fordert diese Datei häufig an. Wenn die Anfrage dann etwas anderes zurückgibt als eine gültige Datei (gültig bedeutet entweder leer oder mit konformem Inhalt) oder die Antwort 404 („Datei ist nicht vorhanden“), crawlt Google Ihre Website entweder nur langsam oder crawlt nicht weiter, bis eine zulässige robots.txt-Antwort eingeht. Weitere Informationen finden Sie weiter unten.
  • DNS-Auflösung
    Im Diagramm wird angezeigt, ob Ihr DNS-Server Ihren Hostnamen nicht erkannt oder beim Crawling nicht geantwortet hat. Sollten Fehler auftreten, wenden Sie sich an Ihren Registrator, um zu prüfen, ob Ihre Website korrekt eingerichtet und Ihr Server mit dem Internet verbunden ist.
  • Serververbindung
    Im Diagramm wird angezeigt, wann Ihr Server bei einem Crawling nicht reagiert oder keine vollständige Antwort auf eine URL-Anfrage gegeben hat. Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler.
Verfügbarkeit der robots.txt-Datei

Im Folgenden finden Sie eine genauere Beschreibung darüber, wie Google beim Crawlen Ihrer Website robots.txt-Dateien prüft und welche Bedeutung diese Dateien für Google haben.

Für Ihre Website ist keine robots.txt-Datei erforderlich, es muss aber eine erfolgreiche Antwort zurückgegeben werden (siehe Definition unten), wenn die Datei angefordert wird. Sonst crawlt Google Ihre Website unter Umständen nicht.

  • Erfolgreiche robots.txt-Antworten
  • Die nachfolgend aufgeführten Antworten gelten im Sinne der Definition als erfolgreich:
    • HTTP 200 und eine robots.txt-Datei. Die Datei kann gültig, ungültig oder leer sein. Auch wenn die Datei Syntaxfehler enthält, wird die Anfrage als erfolgreich gewertet. Regeln mit Syntaxfehlern werden aber unter Umständen ignoriert.
    • HTTP 403/404/410: Die Datei ist nicht vorhanden. Für Ihre Website ist keine robots.txt-Datei erforderlich.
  • Fehlgeschlagene robots.txt-Antworten

Im Folgenden sehen Sie, wie Google eine robots.txt-Datei anfordert und sie beim Crawlen einer Website verwendet:

  1. Vor dem Crawlen Ihrer Website prüft Google zuerst, ob eine aktuelle robots.txt-Anforderung vorliegt, die weniger als 24 Stunden alt ist.
  2. Liegt Google eine aktuelle erfolgreiche robots.txt-Antwort vor, wird das Crawling unter Berücksichtigung der abgerufenen robots.txt-Regeln gestartet.
  3. Wenn Google keine aktuelle erfolgreiche robots.txt-Antwort vorliegt oder die letzte Antwort nicht erfolgreich war, fordert Google Ihre robots.txt-Datei an:
    • Ist dies erfolgreich, kann das Crawling beginnen.
    • Andernfalls beendet Google das Crawling, fordert die robots.txt-Datei aber noch ca. 30 Tage lang an. Wenn Google auch nach 30 Tagen noch keine erfolgreiche robots.txt-Antwort erhalten hat, geschieht Folgendes:
      • Kann auf die meisten anderen URLs auf der Website zugegriffen werden, verwendet Google die zuletzt erfolgreich abgerufenen robots.txt-Regeln für das Crawling.
      • Ist die Website grundsätzlich nicht erreichbar, beendet Google das Crawlen Ihrer Website nach und nach.
Alle Crawling-Vorgänge, die aufgegeben wurden, da die robots.txt-Datei nicht verfügbar war, sind in der Summe der Crawling-Vorgänge enthalten. Diese Crawling-Vorgänge wurden jedoch nicht tatsächlich durchgeführt, sodass in den Gruppierungsberichten keine Daten dafür angezeigt werden (Crawling nach Zweck, Crawling nach Antwort usw.).

Crawling-Antworten

Diese Tabelle enthält die Antworten, die Google beim Crawlen Ihrer Website erhalten hat, gruppiert nach Antworttyp als prozentualer Anteil an allen Crawling-Antworten. Die Antwortdaten beziehen sich auf die Gesamtzahl der Anfragen und nicht auf die Zahl der Anfragen je URL. Wenn Google also eine URL zweimal angefordert und beim ersten Mal einen Serverfehler (500), beim zweiten Mal jedoch die Antwort „OK (200)“ erhalten hat, erscheinen als Antworten zu jeweils 50 % „Serverfehler“ und „OK“.

Darauf sollten Sie achten
Sofern Sie nicht gerade ihre Website umstrukturiert haben oder mit ihr umgezogen sind, sollten in der Regel 200-Antworten oder Antworten anderer „guter“ Typen aufgeführt sein. In der nachfolgenden Liste finden Sie Informationen zum Umgang mit anderen Antwortcodes.

 

Hier sind einige gängige Antwortcodes und Hinweise zum Umgang damit:

Gute Antwortcodes

Diese Seiten sind einwandfrei und verursachen keine Probleme.

  • OK (200): Normalerweise sollten überwiegend Antworten dieses Typs angezeigt werden.
  • Dauerhaft verschoben (301): Ihre Seite hat den HTTP-Statuscode 301 („Dauerhaft verschoben“) zurückgegeben. Wahrscheinlich war das beabsichtigt.
  • Vorübergehend verschoben (302): Ihre Seite hat den HTTP-Statuscode 302 („Vorübergehend verschoben“) zurückgegeben. Wahrscheinlich war das beabsichtigt. Wurde die betreffende Seite dauerhaft verschoben, ändern Sie die Antwort zu „301“.
  • Verschoben (Sonstiges): eine andere 300-Weiterleitungsantwort als 301 oder 302.
  • Nicht geändert (304): Die Seite hat sich seit der letzten Crawling-Anfrage nicht geändert.

Potenziell gute Antwortcodes

Die folgenden Antwortcodes sind im Zweifelsfall in Ordnung, aber trotzdem sollten Sie kontrollieren, ob das so beabsichtigt war.

  • Durch robots.txt-Datei blockiert: Das ist normalerweise beabsichtigt. Trotzdem sollten Sie dafür sorgen, dass keine Seiten oder Ressourcen blockiert werden, die Google crawlen soll. Weitere Informationen zu robots.txt-Dateien
  • Nicht gefunden (404): Fehler dieses Typs können durch fehlerhafte Links auf oder außerhalb Ihrer Website verursacht werden. Es ist nicht immer möglich, sinnvoll oder gar wünschenswert, alle 404-Fehler auf einer Website zu beheben. Oft ist 404 nämlich die richtige Antwort, etwa wenn eine Seite tatsächlich ersatzlos entfernt wurde. Weitere Informationen zur Behebung von 404-Fehlern

Schlechte Antwortcodes

Seiten, die diese Fehler zurückgeben, sollten korrigiert werden, um das Crawling zu verbessern.

  • robots.txt-Datei nicht verfügbar: Wenn Ihre robots.txt-Datei für einen Tag nicht verfügbar ist, unterbricht Google das Crawling so lange, bis eine zulässige Antwort auf eine Anfrage für robots.txt zurückgegeben wird. Dies ist nicht identisch mit der Antwort „Nicht gefunden (404)“ für eine robots.txt-Datei. Diese Antwort ist zulässig. Weitere Details zu robots.txt
  • Nicht berechtigt (401/407): Sie sollten diese Seiten entweder über die robots.txt-Datei blockieren oder die Blockierung aufheben. Wenn diese Seiten keine geschützten Daten enthalten und gecrawlt werden sollen, können Sie die Informationen auf ungeschützte Seiten verschieben oder dem Googlebot einen Zugriff ohne Anmeldung ermöglichen. Beachten Sie allerdings, dass der Googlebot gefälscht sein kann, sodass durch die Zugriffserlaubnis für den Googlebot der Schutz der Seite effektiv unterlaufen wird.
  • Serverfehler (5XX): Diese Fehler verursachen Verfügbarkeitswarnungen und sollten nach Möglichkeit behoben werden. Im Miniaturansicht-Diagramm sehen Sie, wann die Fehler ungefähr aufgetreten sind. Mit einem Klick können Sie weitere Details und die genauen Zeitpunkte aufrufen. Stellen Sie fest, ob es sich um vorübergehende Probleme oder aber um Auswirkungen signifikanter Verfügbarkeitsfehler auf Ihrer Website handelt. Wenn Google Ihre Website zu häufig crawlt, können Sie eine niedrigere Crawling-Frequenz beantragen. Sollte der Fehler auf ein schwerwiegendes Verfügbarkeitsproblem hinweisen, informieren Sie sich hier über eine angestiegene Crawling-Frequenz. Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler.
  • Anderer Clientfehler (4XX): ein anderer 4XX-Fehler (d. h. ein clientseitig aufgetretener Fehler), der hier nicht angegeben ist. Diese Probleme sollten Sie am besten beheben.
  • DNS reagiert nicht: Ihr DNS-Server hat auf Anfragen zu URLs auf Ihrer Website nicht reagiert.
  • DNS-Fehler: ein anderer, nicht spezifizierter DNS-Fehler.
  • Abruffehler: Die Seite konnte aufgrund einer fehlerhaften Portnummer oder IP-Adresse oder einer nicht parsbaren Antwort nicht abgerufen werden.
  • Seite war nicht erreichbar: irgendein sonstiger Fehler beim Abruf der Seite, bei dem die Anfrage den Server nie erreicht hat. Da diese Anfragen nie den Server erreicht haben, werden sie auch nicht in den Protokollen aufgeführt.
  • Zeitüberschreitung der Seite: Zeitüberschreitung bei der Seitenanfrage.
  • Umleitungsfehler: Fehler, der bei der Weiterleitung aufgetreten ist, z. B. zu viele Weiterleitungen, eine leere Weiterleitung oder zirkuläre Weiterleitung (Circular Redirect).
  • Sonstige Fehler: ein anderer Fehler, der keiner der oben genannten Kategorien zugeordnet werden kann.

Gecrawlte Dateitypen

Der von der Anfrage zurückgegebene Dateityp. Der für den jeweiligen Typ angegebene Prozentwert ist der prozentuale Anteil von Antworten dieses Typs, nicht der Anteil abgerufener Bytes dieses Typs.

Mögliche Werte:

  • HTML
  • Bild
  • Video: eines der unterstützten Videoformate.
  • JavaScript
  • CSS
  • PDF
  • Anderer XML-Dateityp: eine XML-Datei ohne RSS, KML oder sonstige Formate, die auf XML aufsetzen.
  • JSON
  • Syndikation: ein RSS- oder Atom-Feed
  • Audio
  • Geografische Daten: KML-Daten oder sonstige geografische Daten.
  • Sonstiger Dateityp: ein anderer Dateityp, der hier nicht angegeben ist.
  • Unbekannt (fehlgeschlagene Anfragen): Wenn die Anfrage fehlschlägt, ist der Dateityp nicht bekannt.
Darauf sollten Sie achten
Wenn Sie Verfügbarkeitsprobleme oder langsame Antwortraten feststellen, können Sie sich anhand dieser Tabelle einen Eindruck davon verschaffen, was für Ressourcen von Google gecrawlt werden und wodurch das Crawling eventuell verlangsamt wird. Fordert Google viele kleine Bilder an, die blockiert werden sollten? Fordert Google Ressourcen an, die auf einer anderen, weniger responsiven Website gehostet werden? Sie können die verschiedenen Dateitypen anklicken, um sich ein Diagramm mit den durchschnittlichen Reaktionszeiten und der Anzahl der Anfragen nach Datum anzusehen. So lässt sich feststellen, ob Häufungen bei langsamen Reaktionen des betreffenden Typs Häufungen langsamer Antworten oder Fällen von Nichtverfügbarkeit entsprechen.

Crawling-Zweck

  • Erkennung: Die angeforderte URL wurde noch nie von Google gecrawlt.
  • Aktualisierung: erneutes Crawlen einer bereits bekannten Seite.

Wenn sich Ihre Seiten schnell ändern, aber nicht oft genug gecrawlt werden, achten Sie darauf, dass sie in einer Sitemap enthalten sind. Bei Seiten, die weniger häufig aktualisiert werden, müssen Sie eventuell ein erneutes Crawling anfordern. Wenn Sie kürzlich viele neue Inhalte hinzugefügt oder eine Sitemap eingereicht haben, sollten die Erkennungswerte für Ihre Website im Idealfall besonders hoch sein.

Googlebot-Typ

Typ des User-Agents, der für die Crawling-Anfrage verwendet wurde. Bei Google gibt es mehrere verschiedene User-Agents, die zu unterschiedlichen Zwecken crawlen und jeweils individuelles Verhalten zeigen. Die folgenden Typen werden angegeben:

  • Smartphone: Googlebot für Smartphones.
  • Computer: Googlebot für Computer
  • Bild: Googlebot für Bilder. Wenn das Bild als Seitenressource geladen wird, wird der Googlebot-Typ als Laden der Seitenressource und nicht als Bild gezählt.
  • Video: Googlebot für Videos. Wenn das Video als Seitenressource geladen wird, wird der Googlebot-Typ als Laden der Seitenressource und nicht als Video gezählt.
  • Laden der Seitenressource: Sekundärabruf von Ressourcen, die von Ihrer Seite verwendet werden. Wenn Google die Seite crawlt, werden wichtige verknüpfte Ressourcen wie Bilder oder CSS-Dateien abgerufen, um die Seite zu rendern und sie dann indexieren zu können. Dies ist der User-Agent, der die betreffenden Ressourcenanforderungen stellt.
  • AdsBot: einer der AdsBot-Crawler. Wenn Sie einen Anstieg solcher Anfragen verzeichnen, haben Sie wahrscheinlich vor Kurzem auf Ihrer Website eine Reihe neuer Ziele für dynamische Suchanzeigen erstellt. Weitere Informationen finden Sie unter Warum ist meine Crawling-Frequenz gestiegen?. URLs werden etwa alle zwei Wochen von AdsBot-Crawlern gecrawlt.
  • StoreBot: Das ist der Shopping-Crawler.
  • Anderer Agent-Typ: ein anderer Google-Crawler, der hier nicht näher beschrieben wird.

Der Großteil Ihrer Crawling-Anfragen sollte von Ihrem primären Crawler stammen. Wenn Sie Crawling-Häufungen feststellen, kontrollieren Sie den User-Agent-Typ. Werden solche Häufungen offenbar durch den AdsBot-Crawler verursacht, dann finden Sie unter Warum ist meine Crawling-Frequenz gestiegen? weitere Informationen.

Fehlerbehebung

Crawling-Frequenz zu hoch

Der Googlebot verfügt über Algorithmen, die verhindern sollen, dass Ihre Website beim Crawling überlastet wird. Falls Sie die Crawling-Frequenz jedoch aus irgendeinem Grund beschränken müssen, finden Sie hier eine entsprechende Anleitung.

Tipps zur Verringerung der Crawling-Frequenz:

  • Passen Sie Ihre robots.txt-Datei an, um Seiten zu blockieren, die nicht aufgerufen werden sollten.
  • Als kurzfristige Lösung können Sie auch Ihre bevorzugte maximale Crawling-Frequenz in der Search Console anpassen. Wir empfehlen das jedoch nicht als langfristige Lösung, da wir so nicht erfahren, welche Seiten oder Ressourcen gecrawlt werden sollen und welche nicht.
  • Achten Sie darauf, dass Sie das Crawling nicht für Seiten mit „unendlichen“ Ergebnissen zulassen, wie z. B. unendliche Kalender oder Suchseiten. Blockieren Sie diese über robots.txt oder mit nofollow-Tags.
  • Wenn es eine URL nicht mehr gibt oder sie verschoben wurde, müssen folgende HTTP-Antwortcodes zurückgegeben werden: 404 oder 410 für URLs, die es nicht mehr gibt oder die ungültig sind; 301-Weiterleitungen für URLs, die permanent durch andere ersetzt wurden (302 bei temporären Weiterleitungen); 503 für geplante temporäre Ausfallzeiten; 500 bei Fehlern, die der Server nicht verarbeiten kann.
  • Wenn Ihre Website überlastet ist und Sie eine Notfallreduzierung benötigen, lesen Sie Warum ist meine Crawling-Frequenz gestiegen?.

Warum ist meine Crawling-Frequenz gestiegen?

Wenn Sie viele neue Informationen veröffentlicht haben oder sich auf Ihrer Website sehr hilfreiche Informationen befinden, werden Ihre Seiten möglicherweise öfter gecrawlt, als Sie möchten. Beispiel:

  • Sie haben die Blockierung eines großen Bereichs Ihrer Website für das Crawling aufgehoben.
  • Sie haben Ihrer Website einen neuen umfangreichen Bereich hinzugefügt.
  • Sie haben bei dynamischen Suchanzeigen neue Seitenfeeds oder URL_Equals-Regeln und damit zahlreiche neue Ziele hinzugefügt.

Wenn Ihre Website so intensiv gecrawlt wird, dass Probleme mit ihrer Verfügbarkeit entstehen, können Sie die Website so schützen:

  1. Ermitteln Sie, welcher Google-Crawler für das übermäßige Crawling der Website verantwortlich ist. Sehen Sie sich Ihre Websiteprotokolle an oder verwenden Sie den Bericht „Crawling-Statistiken“.
  2. So sorgen Sie für unmittelbare Abhilfe:
    • Eine einfache Lösung besteht darin, mit robots.txt das Crawling durch den verantwortlichen Agent (Googlebot, AdsBot usw.) zu blockieren. Es kann jedoch bis zu einem Tag dauern, bis diese Maßnahme wirksam wird.
    • Falls Sie eine erhöhte Last dynamisch erkennen und darauf reagieren können, geben Sie HTTP 5XX/429 zurück, wenn sich die Website ihrer Belastungsgrenze nähert. Achten Sie aber darauf, HTTP 5XX/429 nicht mehr als zwei oder drei Tage lang zurückzugeben. Andernfalls könnte Google dies als Signal dafür interpretieren, dass Ihre Website langfristig seltener gecrawlt werden sollte.
  3. Ändern Sie die Crawling-Frequenz über die Seite für die Crawling-Frequenz-Einstellungen, sofern diese Option verfügbar ist.
  4. Zwei oder drei Tage später, wenn die Crawling-Frequenz von Google angepasst wurde, können Sie die Entfernung der robots.txt-Blockierungen bzw. die Rückgabe von Fehlercodes aus Schritt 1 beenden.
  5. Wenn die Überlastung durch einen AdsBot-Crawler verursacht wird, liegt das wahrscheinlich daran, dass Sie auf Ihrer Website zu viele Ziele für dynamische Suchanzeigen mit URL_Equals oder Seitenfeeds erstellt haben. Falls Sie nicht die nötige Serverkapazität für diese Crawling-Vorgänge haben, sollten Sie entweder die Anzeigenziele begrenzen, URLs schrittweise in kleinerer Anzahl hinzufügen oder die Bereitstellungskapazität erhöhen. Der AdsBot crawlt Ihre Seiten alle 2 Wochen. Das Problem sollte also so schnell wie möglich behoben werden, damit es nicht wiederholt auftritt.
  6. Wenn Sie die Crawling-Frequenz über die Seite mit den Crawling-Einstellungen begrenzt haben, erfolgt nach 90 Tagen wieder eine automatische Anpassung der Frequenz.

Crawling-Frequenz zu niedrig

Die Crawling-Frequenz lässt sich nur dann erhöhen, wenn Sie sie zuvor für Ihre Property ausdrücklich verringert haben. Sie können sich aber ansehen, wie sich das Crawling für sehr große oder häufig aktualisierte Websites verwalten lässt.

Wenn Sie bei kleinen oder mittelgroßen Websites feststellen, dass Google nicht Ihre gesamte Website crawlt, aktualisieren Sie die Sitemaps der Website. Achten Sie dabei darauf, dass Sie keine Seiten blockieren.

Warum ist meine Crawling-Frequenz gesunken?

In der Regel sollte Ihre Crawling-Frequenz über die Zeitspanne von ein bis zwei Wochen relativ stabil sein. Wenn Sie jedoch einen plötzlichen Abfall feststellen, kann dies verschiedene Gründe haben:

  • Sie haben eine neue (oder sehr allgemeine) robots.txt-Regel hinzugefügt. Achten Sie darauf, dass Sie nur Ressourcen blockieren, die Sie wirklich blockieren müssen. Sollte Google bestimmte Ressourcen benötigen, um den Inhalt zu verstehen, wie z. B. CSS oder JavaScript, dann achten Sie darauf, dass diese nicht für den Googlebot blockiert werden.
  • Fehlerhaftes HTML oder nicht unterstützte Inhalte auf Ihren Webseiten: Wenn der Googlebot die Inhalte auf Ihren Seiten nicht parsen kann, lassen sie sich auch nicht crawlen. Möglicherweise nutzen Sie einen nicht unterstützten Medientyp oder die Webseiten bestehen nur aus Bildern. Mit dem URL-Prüftool können Sie herausfinden, wie der Googlebot Ihre Seite sieht.
  • Wenn Ihre Website auf Anfragen nur langsam reagiert, verringert der Googlebot seine Anfragen, um Ihren Server nicht zu überlasten. Sehen Sie im Bericht „Crawling-Statistiken“ nach, ob Ihre Website langsamer reagiert.
  • Wenn die Fehlerquote bei Ihrem Server ansteigt, verringert der Googlebot seine Anfragen, um den Server nicht zu überlasten.
  • Kontrollieren Sie, ob Sie Ihre bevorzugte maximale Crawling-Frequenz nicht gesenkt haben.
  • Wenn sich auf einer Seite Informationen befinden, die selten aktualisiert werden oder keine hohe Qualität haben, wird sie auch weniger oft gecrawlt. Nehmen Sie Ihre Website kritisch unter die Lupe, holen Sie sich neutrales Feedback von Personen, die nicht in die Website involviert sind, und überlegen Sie, wie Sie sie insgesamt verbessern könnten.

Die Summe der Crawling-Vorgänge ist viel höher als die Summen in den Crawling-Protokollen oder in den Abschnitten mit den Crawling-Details.

Wenn die Summe der Crawling-Vorgänge viel höher ist, als die Summen der aufgeschlüsselten Crawling-Anfragen (nach Antwort, Typ usw.), kann es daran liegen, dass Google Ihre Website nicht crawlen kann, weil Ihre robots.txt-Datei schon zu lange nicht mehr verfügbar ist. In diesen Fällen zählt Google Crawling-Vorgänge, die stattgefunden hätten, wenn Ihre robots.txt-Datei verfügbar gewesen wäre, aber führt diese Aufrufe nicht tatsächlich aus. In Ihrem robots.txt-Abrufstatus können Sie prüfen, ob dieses Problem vorliegt.

War das hilfreich?
Wie können wir die Seite verbessern?