Bericht „Crawling-Statistik“

Im Bericht „Crawling-Statistik“ finden Sie statistische Daten zum Crawling-Verlauf von Google auf Ihrer Website. Solche Statistikdaten sind z. B. die Anzahl und der Zeitpunkt von Anfragen, die entsprechende Serverantwort und aufgetretene Verfügbarkeitsprobleme. Dem Bericht können Sie entnehmen, ob beim Crawling Ihrer Website durch Google Auslieferungsprobleme aufgetreten sind.

Der Bericht richtet sich an fortgeschrittene Nutzer. Bei Websites mit weniger als 1.000 Seiten brauchen Sie den Bericht wahrscheinlich nicht zu verwenden. So genaue Crawling-Informationen sind dann normalerweise nicht erforderlich.

Dieser Bericht ist nur für Properties auf Stammebene verfügbar. Das heißt, die Property muss entweder eine Domain-Property (z. B. beispiel.de oder m.beispiel.de) oder eine URL-Präfix-Property auf Stammebene sein (https://beispiel.de, http://beispiel.de, http://m.beispiel.de).

Bericht „Crawling-Statistik“ öffnen

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

Klicken Sie zum Aufrufen des Berichts „Crawling-Statistik“ in der Search Console auf Einstellungen (Property-Einstellungen) > Crawling-Statistik.

Einstieg

Bevor Sie den Bericht verwenden, sollten Sie mit folgenden Informationen vertraut sein:

Informationen zu den Daten

  • Es werden nur URLs angezeigt und gezählt, die tatsächlich von Google angefordert wurden. Im Unterschied zu anderen Berichten werden kanonischen URLs keine Daten zugeordnet.
  • Falls eine URL eine serverseitige Weiterleitung enthält, wird jede Anfrage in der Weiterleitungskette als separate Anfrage gezählt. Wenn beispielsweise Seite 1 auf Seite 2 weiterleitet, die wiederum auf Seite 3 weiterleitet, werden bei Anforderung von Seite 1 durch Google separate Anfragen für Seite 1 (Antwort 301/302), Seite 2 (Antwort 301/302) und Seite 3 (hoffentlich Antwort 200) aufgeführt. Es werden nur Seiten der aktuellen Domain angezeigt. Eine Weiterleitungsantwort hat den Dateityp „Anderer Dateityp“. Clientseitige Weiterleitungen werden nicht gezählt.
  • Vorgesehene Crawling-Vorgänge, die jedoch nicht ausgeführt wurden, da robots.txt nicht verfügbar war, sind zwar in der Summe der Crawling-Vorgänge enthalten, der Bericht enthält jedoch möglicherweise nur begrenzte Details zu diesen Versuchen. Weitere Informationen
  • Ressourcen und Geltungsbereich:
    • Alle Daten sind auf die aktuell ausgewählte Domain beschränkt. Anfragen an andere Domains werden nicht angezeigt. Hierzu zählen auch Anfragen für Seitenressourcen (z. B. Bilder), die außerhalb dieser Property gehostet werden. Wenn Ihre Seite beispiel.de/meineseite beispielsweise das Bild google.com/img.png enthält, ist die Anfrage nach google.com/img.png im Bericht „Crawling-Statistik“ für die Property beispiel.de nicht enthalten.
    • Ebenso werden Anfragen an eine Domain auf gleicher Ebene (z. B. en.example und de.example) nicht aufgeführt. Wenn Sie sich also den Bericht „Crawling-Statistik“ für en.beispiel ansehen, werden Anfragen nach einem Bild auf de.beispiel nicht angezeigt.
    • Anfragen zwischen Subdomains sind jedoch von der übergeordneten Domain aus zu sehen. Wenn Sie also z. B. Daten für example.com aufrufen, werden alle Anfragen an example.com, en.example, de.example.com und alle anderen untergeordneten Domains auf allen Ebenen unterhalb von example.com angezeigt.
    • Wenn dagegen die Ressourcen Ihrer Property von einer Seite in einer anderen Domain verwendet werden, sehen Sie möglicherweise mit der Hostseite verbundene Crawling-Anfragen. Dabei wird jedoch kein Kontext angezeigt, der angibt, dass die Ressource gecrawlt wird, da sie von einer Seite in einer anderen Domain verwendet wird. Das heißt, Sie sehen nicht, dass das Bild „example.com/imageX.png“ gecrawlt wurde, weil es sich auf der Seite „anotherexample.com/mypage“ befindet.
    • Crawling-Daten umfassen sowohl http- als auch https-Protokolle, auch für URL-Präfix-Properties. Das bedeutet, dass der Bericht „Crawling-Statistik“ für http://beispiel.de sowohl Anfragen an http://beispiel.de als auch an https://beispiel.de enthält. Allerdings sind die Beispiel-URLs für URL-Präfix-Properties auf das für die Property festgelegte Protokoll (http oder https) beschränkt.
Bekanntes Problem: Auch wenn derzeit die meisten Crawling-Anfragen im Bericht „Crawling-Statistik“ aufgeführt sind, kann es trotzdem vorkommen, dass manche Anfragen nicht gezählt werden. Die Gründe dafür sind vielfältig. Wir gehen davon aus, dass sich unsere Abdeckung im Lauf der Zeit weiter erhöht und später einmal die meisten oder sogar alle Anfragen umfassen wird. Deshalb können die Anfrageprotokolle Ihrer Website und die hier aufgeführten Zahlen leicht voneinander abweichen.

Bericht verwenden

Sie können auf einen Tabelleneintrag klicken, um die zugehörige Detailansicht aufzurufen, einschließlich einer Liste von Beispiel-URLs. Wenn Sie auf eine URL klicken, sehen Sie Details zur entsprechenden Crawling-Anfrage. Wenn Sie beispielsweise in der Tabelle mit den nach Typ gruppierten Antworten auf die Zeile HTML klicken, sehen Sie aggregierte Crawling-Informationen für alle auf Ihrer Website gecrawlten HTML-Seiten. Außerdem werden für eine Auswahl der URLs Details wie Crawling-Zeitpunkt, Antwortcode und Antwortgröße angezeigt.

Hosts und untergeordnete Domains

Wenn sich Ihre Property auf Domainebene befindet (example.com, http://example.com, https://m.example.com) und mindestens zwei untergeordnete Domains enthält (z. B. fr.example.com und de.example.com), können Sie sich Daten für die übergeordnete Domain ansehen, die alle untergeordneten Domains beinhaltet. Sie haben aber auch die Möglichkeit, Daten für eine einzelne untergeordnete Domain aufzurufen.

Klicken Sie dazu auf der Landingpage der übergeordneten Domain in der Liste Hosts auf die entsprechende untergeordnete Domain. Es werden nur die 20 untergeordneten Domains mit den meisten Zugriffen in den letzten 90 Tagen aufgeführt.

Beispiel-URLs

Sie können auf jeden nach Datentyp gruppierten Eintrag (Antwort, Dateityp, Zweck, Googlebot-Typ) klicken, um eine Liste mit Beispiel-URLs für diesen Typ aufzurufen.

Beispiel-URLs sind nicht umfassend, sondern nur ein repräsentativer Ausschnitt. Wenn eine URL nicht aufgeführt ist, heißt das nicht, dass sie nicht angefragt wurde. Die Anzahl der Beispiele kann nach Tag gewichtet sein, sodass es für einige Arten von Anfragen unter Umständen mehr Beispiele gibt als für andere. Das sollte sich im Lauf der Zeit ausgleichen.

Crawling-Anfragen insgesamt

Die Gesamtzahl der Crawling-Anfragen nach URLs Ihrer Website, unabhängig von deren Erfolg. Enthalten sind Anfragen zu Ressourcen, die von der Seite verwendet werden, sofern sich diese Ressourcen auf Ihrer Website selbst befinden. Anfragen zu Ressourcen, die außerhalb Ihrer Website gehostet werden, werden nicht gezählt. Doppelte Anfragen nach derselben URL werden einzeln gezählt. Wenn es Verfügbarkeitsprobleme mit der robots.txt-Datei gibt, werden potenzielle Abrufe gezählt.

Beispiele für nicht erfolgreiche Anfragen, die gezählt werden:

Gesamtgröße des Downloads

Gesamtzahl der während des Crawlings von Ihrer Website heruntergeladenen Bytes für den angegebenen Zeitraum. Hat Google eine Seitenressource, die von mehreren Seiten verwendet wird, im Cache gespeichert, wird sie nur beim ersten Mal angefordert – also beim Speichern im Cache.

Durchschnittliche Reaktionszeit

Durchschnittliche Reaktionszeit für alle Ressourcen, die im angegebenen Zeitraum von Ihrer Website abgerufen wurden. Jede mit einer Seite verknüpfte Ressource wird als separate Antwort gezählt.

Hoststatus

Der Hoststatus beschreibt, ob Google beim Crawlen Ihrer Website auf Verfügbarkeitsprobleme gestoßen ist. Er kann einen der folgenden Werte annehmen:

  • No significant availability issues icon
    Google hat in den letzten 90 Tagen keine nennenswerten Probleme mit der Crawling-Verfügbarkeit auf Ihrer Website feststellen können. Gut gemacht! Hier müssen Sie nichts weiter tun.
  • Some availability issues, but not recently
    Google hat in den letzten 90 Tagen auf Ihrer Website mindestens ein nennenswertes Problem mit der Crawling-Verfügbarkeit erkannt, das aber bereits vor mehr als einer Woche aufgetreten ist. Eventuell handelte es sich um ein vorübergehendes Problem oder wurde inzwischen behoben. Sehen Sie in der Tabelle Nach Antwort nach, welche Probleme aufgetreten sind, und entscheiden Sie, ob Sie Maßnahmen ergreifen müssen.
  • Recent availability issue
    Google hat in der vergangenen Woche mindestens ein nennenswertes Problem mit der Crawling-Verfügbarkeit erkannt. Da der Fehler erst vor Kurzem aufgetreten ist, sollten Sie herausfinden, ob es sich um ein wiederkehrendes Problem handelt. Sehen Sie in der Tabelle Antwort nach, welche Probleme aufgetreten sind, und entscheiden Sie, ob Sie Maßnahmen ergreifen müssen.
Darauf sollten Sie achten

Der Hoststatus sollte im Idealfall grün sein. Falls der Verfügbarkeitsstatus rot ist, klicken Sie darauf, um Details zur Verfügbarkeit der robots.txt-Datei, zur DNS-Auflösung und zur Hostverbindung zu sehen.

Details zum Hoststatus

Der Verfügbarkeitsstatus des Hosts wird in den folgenden Kategorien bewertet. Ein wesentlicher Fehler in einer Kategorie kann einen niedrigeren Verfügbarkeitsstatus zur Folge haben. Klicken Sie im Bericht auf eine Kategorie, um Details zu sehen.

Für jede Kategorie wird ein Diagramm mit Crawling-Daten für den jeweiligen Zeitraum angezeigt. Es enthält eine gepunktete rote Linie. Liegt der Messwert für die betreffende Kategorie über dieser Linie – wenn beispielsweise die DNS-Auflösung an einem bestimmten Tag bei mehr als 5 % aller Anfragen fehlschlägt –, gilt das als Problem für diese Kategorie. Der Status zeigt dann, wie lange es her ist, dass das Problem zuletzt aufgetreten ist.

  • robots.txt-Abruf
    Das Diagramm zeigt die Fehlerrate für robots.txt-Anfragen bei einem Crawling. Google fordert diese Datei häufig an. Wenn die Anfrage dann etwas anderes zurückgibt als eine gültige Datei (gültig bedeutet entweder leer oder mit konformem Inhalt) oder die Antwort 404 („Datei ist nicht vorhanden“), crawlt Google Ihre Website entweder nur langsam oder crawlt nicht weiter, bis eine zulässige robots.txt-Antwort eingeht. Weitere Informationen finden Sie weiter unten.
  • DNS-Auflösung
    Im Diagramm wird angezeigt, ob Ihr DNS-Server Ihren Hostnamen nicht erkannt oder beim Crawling nicht geantwortet hat. Sollten Fehler auftreten, wenden Sie sich an Ihren Registrator, um zu prüfen, ob Ihre Website korrekt eingerichtet und Ihr Server mit dem Internet verbunden ist.
  • Serververbindung
    Im Diagramm wird angezeigt, wann Ihr Server bei einem Crawling nicht reagiert oder keine vollständige Antwort auf eine URL-Anfrage gegeben hat. Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler.
Verfügbarkeit der robots.txt-Datei

Im Folgenden finden Sie eine genauere Beschreibung darüber, wie Google beim Crawlen Ihrer Website robots.txt-Dateien prüft und welche Bedeutung diese Dateien für Google haben.

Für Ihre Website ist keine robots.txt-Datei erforderlich, es muss aber eine erfolgreiche Antwort zurückgegeben werden (siehe Definition unten), wenn die Datei angefordert wird. Sonst beendet Google unter Umständen das regelmäßige Crawling Ihrer Website.

  • Erfolgreiche robots.txt-Antworten
  • Die nachfolgend aufgeführten Antworten gelten im Sinne der Definition als erfolgreich:
    • HTTP 200 und eine robots.txt-Datei. Die Datei kann gültig, ungültig oder leer sein. Auch wenn die Datei Syntaxfehler enthält, wird die Anfrage als erfolgreich gewertet. Regeln mit Syntaxfehlern werden aber unter Umständen ignoriert.
    • HTTP 403/404/410: Die Datei ist nicht vorhanden. Für Ihre Website ist keine robots.txt-Datei erforderlich.
  • Fehlgeschlagene robots.txt-Antworten

Im Folgenden sehen Sie, wie Google eine robots.txt-Datei anfordert und sie beim Crawlen einer Website verwendet:

  1. Vor dem Crawlen Ihrer Website prüft Google zuerst, ob eine aktuelle erfolgreiche robots.txt-Anforderung vorliegt, die weniger als 24 Stunden alt ist.
  2. Wenn Google eine erfolgreiche robots.txt-Antwort findet, die weniger als 24 Stunden alt ist, verwendet Google diese robots.txt-Datei beim Crawlen Ihrer Website. (Wichtig: „404 Nicht gefunden“ gilt als erfolgreiche Antwort und bedeutet, dass keine robots.txt-Datei vorhanden ist. In diesem Fall kann Google alle URLs auf der Website crawlen.)
  3. Wenn die letzte Antwort nicht erfolgreich war oder älter als 24 Stunden ist, fordert Google Ihre robots.txt-Datei an:
    • Ist diese Anfrage erfolgreich, kann das Crawling beginnen.
    • Ist sie nicht erfolgreich, geschieht Folgendes:
      • In den ersten 12 Stunden wird Google Ihre Website nicht mehr crawlen, aber weiterhin Ihre robots.txt-Datei anfordern.
      • Nach 12 Stunden wird Google bis zum 30. Tag nach der ursprünglichen Anforderung die letzte erfolgreich abgerufene robots.txt-Datei verwenden. Parallel wird weiterhin versucht, eine aktuelle robots.txt-Datei anzufordern.
      • Nach 30 Tagen:
        • Wenn die Startseite der Website verfügbar ist, nimmt Google an, dass keine robots.txt-Datei vorhanden ist, und crawlt ohne Einschränkungen.
        • Wenn die Startseite der Website nicht verfügbar ist, stoppt Google das Crawling der Website.
        • In beiden Fällen versucht Google in regelmäßigen Abständen immer wieder, Ihre robots.txt-Datei anzufordern.
Alle Crawling-Vorgänge, die aufgegeben wurden, weil die robots.txt-Datei nicht verfügbar war, sind in der Summe der Crawling-Vorgänge enthalten. Diese Crawling-Vorgänge wurden jedoch nicht tatsächlich durchgeführt, sodass sie in einigen Gruppierungsberichten (Crawling nach Zweck, Crawling nach Antwort usw.) nicht aufgelistet werden oder dort nur begrenzte Informationen dazu vorhanden sind.

Crawling-Antworten

Diese Tabelle enthält die Antworten, die Google beim Crawlen Ihrer Website erhalten hat, gruppiert nach Antworttyp als prozentualer Anteil an allen Crawling-Antworten. Die Antwortdaten beziehen sich auf die Gesamtzahl der Anfragen und nicht auf die Zahl der Anfragen je URL. Wenn Google also eine URL zweimal angefordert und beim ersten Mal einen Serverfehler (500), beim zweiten Mal jedoch die Antwort „OK (200)“ erhalten hat, erscheinen als Antworten zu jeweils 50 % „Serverfehler“ und „OK“.

Darauf sollten Sie achten
Sofern Sie nicht gerade ihre Website umstrukturiert oder verschoben haben, sollten in der Regel 200-Antworten oder Antworten anderer „guter“ Typen aufgeführt sein. In der nachfolgenden Liste finden Sie Informationen zum Umgang mit anderen Antwortcodes.

 

Hier sind einige gängige Antwortcodes und Hinweise zum Umgang damit:

Gute Antwortcodes

Diese Seiten sind einwandfrei und verursachen keine Probleme.

  • OK (200): Normalerweise sollten überwiegend Antworten dieses Typs angezeigt werden.
  • Dauerhaft verschoben (301): Ihre Seite hat den HTTP-Statuscode 301 oder 308 („Dauerhaft verschoben“) zurückgegeben. Wahrscheinlich war das beabsichtigt.
  • Vorübergehend verschoben (302): Ihre Seite hat den HTTP-Statuscode 302 oder 307 („Vorübergehend verschoben“) zurückgegeben. Wahrscheinlich war das beabsichtigt. Wurde die betreffende Seite dauerhaft verschoben, ändern Sie die Antwort zu „301“.
  • Verschoben (Sonstiges): Weist auf eine Meta-Aktualisierung hin.
  • Nicht geändert (304): Die Seite wurde seit der letzten Crawling-Anfrage nicht geändert.

Potenziell gute Antwortcodes

Die folgenden Antwortcodes sind im Zweifelsfall in Ordnung, aber trotzdem sollten Sie kontrollieren, ob das so beabsichtigt war.

  • Nicht gefunden (404): Fehler dieses Typs können durch fehlerhafte Links auf oder außerhalb Ihrer Website verursacht werden. Es ist nicht immer möglich, sinnvoll oder gar wünschenswert, alle 404-Fehler auf einer Website zu beheben. Oft ist 404 nämlich die richtige Antwort, etwa wenn eine Seite tatsächlich ersatzlos entfernt wurde. Weitere Informationen zur Behebung von 404-Fehlern

Schlechte Antwortcodes

Seiten, die diese Fehler zurückgeben, sollten korrigiert werden, um das Crawling zu verbessern.

  • robots.txt-Datei nicht verfügbar: Wenn Ihre robots.txt-Datei für einen Tag nicht verfügbar ist, unterbricht Google das Crawling so lange, bis eine zulässige Antwort auf eine Anfrage für robots.txt zurückgegeben wird. Sie dürfen Google gegenüber kein Cloaking für Ihre robots.txt-Datei durchführen. Die robots.txt-Seite darf auch nicht je nach User-Agent variieren.
    Diese Antwort ist nicht identisch mit der Antwort „Nicht gefunden (404)“ für eine robots.txt-Datei. Diese Antwort ist zulässig. Weitere Details zu robots.txt
  • Nicht berechtigt (401/407): Sie sollten diese Seiten entweder über die robots.txt-Datei blockieren oder die Blockierung aufheben. Wenn diese Seiten keine geschützten Daten enthalten und gecrawlt werden sollen, können Sie die Informationen auf ungeschützte Seiten verschieben oder dem Googlebot einen Zugriff ohne Anmeldung ermöglichen. Beachten Sie allerdings, dass der Googlebot gefälscht sein kann, sodass durch die Zugriffserlaubnis für den Googlebot der Schutz der Seite effektiv unterlaufen wird.
  • Serverfehler (5XX): Diese Fehler verursachen Verfügbarkeitswarnungen und sollten nach Möglichkeit behoben werden. Im Miniaturansicht-Diagramm sehen Sie, wann die Fehler ungefähr aufgetreten sind. Mit einem Klick können Sie weitere Details und die genauen Zeitpunkte aufrufen. Stellen Sie fest, ob es sich um vorübergehende Probleme handelt oder sich darin die Auswirkungen größerer Verfügbarkeitsprobleme auf Ihrer Website zeigen. Wenn Google Ihre Website zu häufig crawlt, können Sie eine niedrigere Crawling-Frequenz beantragen. Sollte der Fehler auf ein schwerwiegendes Verfügbarkeitsproblem hinweisen, informieren Sie sich hier über eine angestiegene Crawling-Frequenz. Weitere Informationen zum Beheben dieser Fehler finden Sie unter Serverfehler.
  • Anderer Clientfehler (4XX): ein anderer 4XX-Fehler (d. h. ein clientseitig aufgetretener Fehler), der hier nicht angegeben ist. Diese Probleme sollten Sie am besten beheben.
  • DNS reagiert nicht: Ihr DNS-Server hat auf Anfragen zu URLs auf Ihrer Website nicht reagiert.
  • DNS-Fehler: ein anderer, nicht spezifizierter DNS-Fehler.
  • Abruffehler: Die Seite konnte aufgrund einer fehlerhaften Portnummer oder IP-Adresse oder einer nicht parsbaren Antwort nicht abgerufen werden.
  • Seite war nicht erreichbar: irgendein sonstiger Fehler beim Abruf der Seite, bei dem die Anfrage den Server nie erreicht hat. Da diese Anfragen nie den Server erreicht haben, werden sie auch nicht in den Protokollen aufgeführt.
  • Zeitüberschreitung der Seite: Zeitüberschreitung bei der Seitenanfrage.
  • Umleitungsfehler: Fehler, der bei der Weiterleitung aufgetreten ist, z. B. zu viele Weiterleitungen, eine leere Weiterleitung oder zirkuläre Weiterleitung (Circular Redirect).
  • Sonstige Fehler: ein anderer Fehler, der keiner der oben genannten Kategorien zugeordnet werden kann.

Gecrawlte Dateitypen

Der von der Anfrage zurückgegebene Dateityp. Der für den jeweiligen Typ angegebene Prozentwert ist der prozentuale Anteil von Antworten dieses Typs, nicht der Anteil abgerufener Bytes dieses Typs.

Mögliche Dateitypwerte:

  • HTML
  • Bild
  • Video: eines der unterstützten Videoformate.
  • JavaScript
  • CSS
  • PDF
  • Anderer XML-Dateityp: eine XML-Datei ohne RSS, KML oder sonstige Formate, die auf XML aufsetzen.
  • JSON
  • Syndikation: ein RSS- oder Atom-Feed
  • Audio
  • Geografische Daten: KML-Daten oder sonstige geografische Daten.
  • Sonstiger Dateityp: ein anderer Dateityp, der hier nicht angegeben ist. Weiterleitungen sind in dieser Gruppierung enthalten.
  • Unbekannt (fehlgeschlagene Anfragen): Wenn die Anfrage fehlschlägt, ist der Dateityp nicht bekannt.
Darauf sollten Sie achten
Wenn Sie Verfügbarkeitsprobleme oder langsame Antwortraten feststellen, können Sie sich anhand dieser Tabelle einen Eindruck davon verschaffen, was für Ressourcen von Google gecrawlt werden und wodurch das Crawling eventuell verlangsamt wird. Fordert Google viele kleine Bilder an, die blockiert werden sollten? Fordert Google Ressourcen an, die auf einer anderen, weniger responsiven Website gehostet werden? Sie können die verschiedenen Dateitypen anklicken, um sich ein Diagramm mit den durchschnittlichen Reaktionszeiten und der Anzahl der Anfragen nach Datum anzusehen. So lässt sich feststellen, ob Häufungen bei langsamen Reaktionen des betreffenden Typs Häufungen langsamer Antworten oder Fällen von Nichtverfügbarkeit entsprechen.

Crawling-Zweck

  • Erkennung: Die angeforderte URL wurde noch nie von Google gecrawlt.
  • Aktualisierung: erneutes Crawlen einer bereits bekannten Seite.

Wenn sich Ihre Seiten schnell ändern, aber nicht oft genug gecrawlt werden, achten Sie darauf, dass sie in einer Sitemap enthalten sind. Bei Seiten, die weniger häufig aktualisiert werden, müssen Sie eventuell ein erneutes Crawling anfordern. Wenn Sie kürzlich viele neue Inhalte hinzugefügt oder eine Sitemap eingereicht haben, sollten die Erkennungswerte für Ihre Website im Idealfall besonders hoch sein.

Googlebot-Typ

Typ des User-Agents, der für die Crawling-Anfrage verwendet wurde. Bei Google gibt es mehrere verschiedene User-Agents, die zu unterschiedlichen Zwecken crawlen und jeweils individuelles Verhalten zeigen.

Mögliche Werte für den Googlebot-Typ:

  • Smartphone: Googlebot für Smartphones.
  • Computer: Googlebot für Computer
  • Bild: Googlebot für Bilder. Wenn das Bild als Seitenressource geladen wird, wird der Googlebot-Typ als Laden der Seitenressource und nicht als Bild gezählt.
  • Video: Googlebot für Videos. Wenn das Video als Seitenressource geladen wird, wird der Googlebot-Typ als Laden der Seitenressource und nicht als Video gezählt.
  • Laden der Seitenressource: Sekundärabruf von Ressourcen, die von Ihrer Seite verwendet werden. Wenn Google die Seite crawlt, werden wichtige verknüpfte Ressourcen wie Bilder oder CSS-Dateien abgerufen, um die Seite zu rendern und sie dann indexieren zu können. Dies ist der User-Agent, der die betreffenden Ressourcenanforderungen stellt.
  • AdsBot: einer der AdsBot-Crawler. Wenn Sie einen Anstieg solcher Anfragen verzeichnen, haben Sie wahrscheinlich vor Kurzem auf Ihrer Website eine Reihe neuer Ziele für dynamische Suchanzeigen erstellt. Weitere Informationen finden Sie unter Warum ist meine Crawling-Frequenz gestiegen?. URLs werden etwa alle zwei Wochen von AdsBot-Crawlern gecrawlt.
  • StoreBot: Das ist der Shopping-Crawler.
  • Anderer Agent-Typ: ein anderer Google-Crawler, der hier nicht näher beschrieben wird.

Wenn Sie Crawling-Häufungen feststellen, kontrollieren Sie den User-Agent-Typ. Werden solche Häufungen offenbar durch den AdsBot-Crawler verursacht, dann finden Sie unter Warum ist meine Crawling-Frequenz gestiegen? weitere Informationen.

Fehlerbehebung

Crawling-Frequenz zu hoch

Der Googlebot verfügt über Algorithmen, die verhindern sollen, dass Ihre Website beim Crawling überlastet wird. Falls Sie die Crawling-Frequenz jedoch aus irgendeinem Grund beschränken müssen, finden Sie hier eine entsprechende Anleitung.

Warum ist meine Crawling-Frequenz gestiegen?

Wenn Sie viele neue Informationen veröffentlicht haben oder sich auf Ihrer Website sehr hilfreiche Informationen befinden, werden Ihre Seiten möglicherweise öfter gecrawlt, als Sie möchten. Beispiel:

  • Sie haben die Blockierung eines großen Bereichs Ihrer Website für das Crawling aufgehoben.
  • Sie haben Ihrer Website einen neuen umfangreichen Bereich hinzugefügt.
  • Sie haben bei dynamischen Suchanzeigen neue Seitenfeeds oder URL_Equals-Regeln und damit zahlreiche neue Ziele hinzugefügt.

Wenn Ihre Website so intensiv gecrawlt wird, dass Probleme mit ihrer Verfügbarkeit entstehen, können Sie die Website so schützen:

  1. Ermitteln Sie, welcher Google-Crawler für das übermäßige Crawling der Website verantwortlich ist. Sehen Sie sich Ihre Websiteprotokolle an oder verwenden Sie den Bericht „Crawling-Statistik“.
  2. So sorgen Sie für unmittelbare Abhilfe:
    • Eine einfache Lösung besteht darin, mit einer robots.txt-Datei das Crawling durch den verantwortlichen Agent (Googlebot, AdsBot usw.) zu blockieren. Es kann allerdings bis zu einem Tag dauern, bis diese Maßnahme wirksam wird. Außerdem sollten Sie die Blockierung nicht zu lange aufrechterhalten, da sich das langfristig auf das Crawling auswirken kann.
    • Falls Sie eine erhöhte Last dynamisch erkennen und ebenso darauf reagieren können: Geben Sie HTTP 503/429 zurück, sobald sich die Website ihrer Belastungsgrenze nähert. Achten Sie aber darauf, HTTP 503/429 höchstens zwei oder drei Tage lang zurückzugeben. Andernfalls könnte Google dies als Signal dafür interpretieren, dass Ihre Website langfristig seltener gecrawlt werden sollte.
  3. Zwei bis drei Tage später, wenn die Crawling-Frequenz von Google angepasst wurde, können Sie die robots.txt-Blockierungen entfernen bzw. die Rückgabe der Fehlercodes 503 oder 429 beenden.
  4. Wenn die Überlastung durch den AdsBot-Crawler verursacht wird, liegt das wahrscheinlich daran, dass Sie auf Ihrer Website zu viele Ziele für dynamische Suchanzeigen mit URL_Equals oder Seitenfeeds erstellt haben. Falls Sie nicht die nötige Serverkapazität für diese Crawling-Vorgänge haben, sollten Sie entweder die Anzeigenziele begrenzen, URLs schrittweise in kleinerer Anzahl hinzufügen oder die Bereitstellungskapazität erhöhen. Der AdsBot crawlt Ihre Seiten alle zwei Wochen. Das Problem sollte also so schnell wie möglich behoben werden, damit es nicht wiederholt auftritt.

Crawling-Frequenz scheint zu niedrig

Sie können Google nicht auffordern, Ihre Crawling-Frequenz zu erhöhen. Sie können sich aber ansehen, wie sich das Crawling für sehr große oder häufig aktualisierte Websites verwalten lässt.

Wenn Sie bei kleinen oder mittelgroßen Websites feststellen, dass Google nicht Ihre gesamte Website crawlt, aktualisieren Sie die Sitemaps der Website. Achten Sie dabei darauf, dass Sie keine Seiten blockieren.

Warum ist meine Crawling-Frequenz gesunken?

In der Regel sollte Ihre Crawling-Frequenz über die Zeitspanne von ein bis zwei Wochen relativ stabil sein. Wenn Sie jedoch einen plötzlichen Abfall feststellen, kann dies verschiedene Gründe haben:

  • Sie haben eine neue (oder sehr allgemeine) robots.txt-Regel hinzugefügt. Achten Sie darauf, dass Sie nur Ressourcen blockieren, die Sie wirklich blockieren müssen. Sollte Google bestimmte Ressourcen benötigen, um den Inhalt zu verstehen, wie z. B. CSS oder JavaScript, dann achten Sie darauf, dass diese nicht für den Googlebot blockiert werden.
  • Wenn Ihre Website auf Anfragen nur langsam reagiert, verringert der Googlebot seine Anfragen, um Ihren Server nicht zu überlasten. Sehen Sie im Bericht „Crawling-Statistik“ nach, ob Ihre Website langsamer reagiert.
  • Wenn die Fehlerquote bei Ihrem Server ansteigt, verringert der Googlebot seine Anfragen, um den Server nicht zu überlasten.
  • Wenn sich auf einer Seite Informationen befinden, die selten aktualisiert werden oder keine hohe Qualität haben, wird sie auch weniger oft gecrawlt. Nehmen Sie Ihre Website kritisch unter die Lupe, holen Sie sich neutrales Feedback von Personen, die nicht in die Website involviert sind, und überlegen Sie, wie Sie sie insgesamt verbessern könnten.

Die Summe der Crawling-Vorgänge im Bericht ist viel höher als die Summe in den Serverprotokollen Ihrer Website.

Wenn die in diesem Bericht aufgeführte Gesamtzahl der Crawling-Vorgänge viel höher ist als die Crawling-Anfragen von Google in Ihren Serverprotokollen, kann das daran liegen, dass Google Ihre Website nicht crawlen kann, weil Ihre robots.txt-Datei zu lange nicht verfügbar ist. In diesem Fall zählt Google die Crawling-Vorgänge, die möglicherweise erfolgt wären, wenn Ihre robots.txt-Datei verfügbar gewesen wäre. Diese Aufrufe werden jedoch nicht tatsächlich durchführt. In Ihrem robots.txt-Abrufstatus können Sie prüfen, ob dieses Problem vorliegt.

War das hilfreich?

Wie können wir die Seite verbessern?

Benötigen Sie weitere Hilfe?

Mögliche weitere Schritte:

Suche
Suche löschen
Suche schließen
Hauptmenü
3776794200539934202
true
Suchen in der Hilfe
true
true
true
true
true
83844
false
false