Het rapport Crawlstatistieken

Het rapport Crawlstatistieken bevat statistieken over de crawlgeschiedenis van Google op je website. Denk hierbij aan het aantal gestuurde verzoeken en wanneer deze zijn gestuurd, wat de reactie van je server hierop is geweest en welke beschikbaarheidsproblemen zijn opgetreden. Je kunt dit rapport gebruiken om te zien of Google weergaveproblemen ondervindt tijdens het crawlen van je site.

Dit rapport is bedoeld voor gevorderde gebruikers. Als je een site met minder dan 1000 pagina's hebt, hoef je dit rapport niet te gebruiken en heb je dit detailniveau op het gebied van crawlen waarschijnlijk niet nodig.

Dit rapport is alleen beschikbaar voor property's op rootniveau. Dat wil zeggen dat de property een domeinproperty moet zijn (zoals example.com of m.example.com) of een property met een URL-voorvoegsel op rootniveau (https://example.com, http://example.com, http://m.example.com).

Het rapport Crawlstatistieken openen

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

Je vindt het rapport Crawlstatistieken in Search Console door te klikken op

(Property-instellingen) > Crawlstatistieken.

Aan de slag

Zorg dat je de volgende informatie begrijpt voordat je dit rapport gebruikt:

Hoe Google Zoeken werkt
Onderwerpen voor gevorderde gebruikers, met name de informatie over crawlen en indexeren, en onderwerpen over sitemaps.
Verschillende onderwerpen over hoe je de toegang tot je site beheert, waaronder blokkering via robots.txt.
Als je een grote site hebt (met honderdduizenden pagina's), kun je deze gids over het beheer van en probleemoplossing voor je crawlbudget doornemen.

Over de gegevens

Alle getoonde en meegetelde URL's zijn de URL's die daadwerkelijk zijn aangevraagd door Google. Gegevens worden niet toegewezen aan canonieke URL's zoals in sommige andere rapporten gebeurt.
Als een URL een omleiding aan de serverzijde heeft, wordt elk verzoek in de omleidingsketen geteld als een afzonderlijk verzoek. Stel dat pagina1 wordt omgeleid naar pagina2, die op zijn beurt wordt omgeleid naar pagina3. Als Google pagina1 aanvraagt, zie je afzonderlijke verzoeken voor pagina1 (retourneert 301/302), pagina2 (retourneert 301/302) en pagina3 (retourneert hopelijk 200). Alleen pagina's in het huidige domein worden getoond. Een omleidingsreactie is van het bestandstype Ander bestandstype. Omleidingen aan de clientzijde worden niet meegeteld.
Crawls die zijn overwogen maar niet uitgevoerd omdat robots.txt niet beschikbaar was, tellen mee voor de crawltotalen, maar het rapport bevat misschien beperkte informatie over die pogingen. Meer informatie
Bronnen en bereik:
- Alle gegevens zijn beperkt tot het geselecteerde domein. Verzoeken aan andere domeinen worden niet weergegeven. Dit omvat verzoeken voor paginabronnen (zoals afbeeldingen) die buiten deze property worden gehost. Als je pagina example.com/mypage bijvoorbeeld de afbeelding google.com/img.png bevat, zie je het verzoek voor google.com/img.png niet in het rapport Crawlstatistieken voor de property example.com.
- Ook zie je geen verzoeken voor een domein op hetzelfde niveau (en.example en de.example). Als je dus het rapport Crawlstatistieken voor en.example bekijkt, zie je geen verzoeken voor een afbeelding op de.example.
- Je kunt verzoeken tussen subdomeinen bekijken via het bovenliggende domein. Als je bijvoorbeeld de gegevens voor example.com bekijkt, kun je alle verzoeken zien van example.com, en.example, de.example.com en andere onderliggende domeinen op elk niveau onder example.com.
- Als de bronnen van je property worden gebruikt door een pagina in een ander domein, zie je misschien crawlverzoeken die zijn gekoppeld aan de hostpagina, maar zie je geen context die aangeeft dat de bron wordt gecrawld, omdat deze door een pagina op een ander domein wordt gebruikt. (Je ziet niet dat de afbeelding example.com/imageX.png is gecrawld, omdat deze is opgenomen op de pagina anotherexample.com/mypage.)
- Crawlgegevens omvatten zowel HTTP- als HTTPS-protocollen, zelfs voor property's met een URL-voorvoegsel. Dit betekent dat het rapport Crawlstatistieken voor http://example.com verzoeken bevat van zowel http://example.com als https://example.com. Maar de voorbeeld-URL's voor property's met een URL-voorvoegsel zijn beperkt tot het protocol dat voor de property is gedefinieerd (HTTP of HTTPS).

Bekend probleem: Het rapport Crawlstatistieken rapporteert momenteel de meeste crawlverzoeken, maar sommige verzoeken worden om verschillende redenen niet geteld. We verwachten dat de dekking in de loop van de tijd toeneemt, zodat de meeste of zelfs alle verzoeken worden meegenomen. Daarom kun je kleine verschillen zien tussen de verzoeklogboeken van je site en de cijfers die hier worden gerapporteerd.

Navigeren in het rapport

Het rapport bevat de volgende crawl-informatie over je site:

Totaal aantal crawlverzoeken
Totale downloadgrootte
Gemiddelde reactietijd
Status van de host
Crawlreacties
Bestandstype
Crawldoel
Googlebot-type

Klik op een tabelitem voor een gedetailleerde weergave voor dat item, waaronder een lijst met voorbeeld-URL's. Klik op een URL voor meer informatie over dat specifieke crawlverzoek. Voorbeeld: Klik in de tabel waarin reacties zijn gegroepeerd per type op de rij HTML om de verzamelde crawlgegevens te bekijken voor alle HTML-pagina's die zijn gecrawld op je site. Ook kun je zo details (zoals de crawltijd, de reactiecode en de reactiegrootte) bekijken voor een selectie van die URL's.

Hosts en onderliggende domeinen

Als je property zich op domeinniveau bevindt (example.com, http://example.com, https://m.example.com) en 2 of meer onderliggende domeinen heeft (bijvoorbeeld fr.example.com en de.example.com), kun je gegevens bekijken van het bovenliggende domein (dat alle onderliggende domeinen omvat) of van één onderliggend domein.

Als je het rapport van een specifiek onderliggend domein wilt bekijken, klik je op het onderliggende domein in de lijsten Hosts op de landingspagina van het bovenliggende domein. Je ziet alleen de top 20 van onderliggende domeinen die in de afgelopen 90 dagen verkeer hebben gegenereerd.

Voorbeeld-URL's

Je kunt klikken op de items van de gegroepeerde gegevenstypen (reactie, bestandstype, doel, Googlebot-type) om een lijst met voorbeeld-URL's van dat type te bekijken.

Voorbeeld-URL's zijn niet volledig, maar slechts een representatief voorbeeld. Als je een bepaalde URL niet ziet, betekent dit niet dat we deze niet hebben aangevraagd. Het aantal voorbeelden kan per dag worden gewogen, dus het is mogelijk dat sommige typen verzoeken meer voorbeelden hebben dan andere typen. Na verloop van tijd ontstaat er balans.

Totaal aantal crawlverzoeken

Het totale aantal crawlverzoeken dat is ingediend voor URL's op je site, ongeacht of een verzoek is geslaagd. Dit omvat verzoeken voor bronnen die door de pagina worden gebruikt als deze bronnen op je site staan. Verzoeken naar buiten je site gehoste bronnen worden niet meegeteld. Dubbele verzoeken voor dezelfde URL worden afzonderlijk geteld. Als je robots.txt-bestand onvoldoende beschikbaar is, worden mogelijke ophaalacties geteld.

Mislukte verzoeken die worden geteld, zijn onder andere:

Ophaalacties die nooit zijn uitgevoerd omdat het robots.txt-bestand onvoldoende beschikbaar was.
Ophaalacties die zijn mislukt vanwege problemen met de DNS-omzetting.
Ophaalacties die zijn mislukt vanwege problemen met de serverconnectiviteit.
Ophaalacties die zijn afgebroken vanwege omleidingslussen.

Totale downloadgrootte

Het totale aantal bytes dat via je site is gedownload tijdens het crawlproces in de opgegeven periode. Als Google een paginabron in het cachegeheugen heeft opgeslagen die door meerdere pagina's wordt gebruikt, wordt de bron alleen de eerste keer aangevraagd (wanneer de pagina in het cachegeheugen wordt opgeslagen).

Gemiddelde reactietijd

Gemiddelde reactietijd voor alle bronnen die zijn opgehaald van je site in de opgegeven periode. Elke bron die door een pagina wordt gelinkt, wordt geteld als afzonderlijke reactie.

Status van de host

Status van de host geeft aan of Google beschikbaarheidsproblemen heeft ondervonden tijdens het crawlen van je site. De status kan een van de volgende waarden zijn:

Google heeft in de afgelopen 90 dagen geen aanzienlijke beschikbaarheidsproblemen ondervonden tijdens het crawlproces op je site. Je hoeft verder niets te doen.
Google heeft in de afgelopen 90 dagen ten minste één aanzienlijk beschikbaarheidsprobleem ondervonden tijdens het crawlproces op je site, maar dit probleem heeft zich meer dan een week geleden voorgedaan. Deze foutmelding kan voorkomen als er sprake is van een tijdelijk probleem of als het probleem is verholpen. Check de tabel Reactie om te zien wat de problemen zijn geweest en te kijken of je actie moet ondernemen.
Google heeft in de afgelopen week ten minste één aanzienlijk beschikbaarheidsprobleem ondervonden tijdens het crawlproces op je site. Aangezien dit probleem zich onlangs heeft voorgedaan, moet je zien te achterhalen of dit een terugkerend probleem is. Check de tabel Reactie om te zien wat de problemen zijn geweest en te kijken of je actie moet ondernemen.

Waar je op moet letten

In het ideale geval is je status van de host Groen. Als je beschikbaarheidsstatus rood is, klik je om de beschikbaarheidsgegevens te bekijken voor de beschikbaarheid van robots.txt, DNS-omzetting en de hostconnectiviteit.

Informatie over de status van de host

De beschikbaarheidsstatus van de host wordt onderverdeeld in de volgende categorieën. Een aanzienlijke fout in een van de categorieën kan leiden tot een lagere beschikbaarheidsstatus. Klik op een categorie in het rapport voor meer informatie.

Je ziet voor elke categorie een diagram met crawlgegevens voor de periode. Het diagram heeft een rode stippellijn. Als de statistiek boven de stippellijn van deze categorie ligt (bijvoorbeeld als de DNS-omzetting voor meer dan 5% van de verzoeken op een bepaalde dag mislukt), wordt dit beschouwd als een probleem voor die categorie en weerspiegelt de status de recentheid van het laatste probleem.

robots.txt ophalen
Het diagram toont het foutpercentage voor robots.txt-verzoeken tijdens een crawl. Google vraagt dit bestand regelmatig aan. Als het verzoek geen geldig bestand retourneert (een gevuld of leeg bestand) of een 404-reactie genereert (bestand bestaat niet), kan Google het crawlproces voor je site vertragen of stoppen totdat een acceptabele robots.txt-reactie wordt ontvangen. (Zie hieronder voor meer informatie)
DNS-omzetting
In het diagram zie je wanneer je DNS-server je hostnaam niet heeft herkend of geen reactie heeft gestuurd tijdens het crawlen. Als je fouten ziet, neem je contact op met je registreerder om na te gaan of je site correct is ingesteld en of je server verbinding heeft met internet.
Serverconnectiviteit
Het diagram geeft aan wanneer je server niet heeft gereageerd of geen volledige reactie heeft geleverd voor een URL tijdens een crawl. Zie Serverfouten voor meer informatie over het oplossen van deze fouten.

Meer informatie over de beschikbaarheid van robots.txt

Hier volgt een gedetailleerdere beschrijving van de manier waarop Google robots.txt-bestanden op je site checkt (en hiervan afhankelijk is) tijdens het crawlproces.

Je site hoeft geen robots.txt-bestand te bevatten, maar de site moet een geslaagde reactie (zoals hieronder gedefinieerd) retourneren wanneer er om dit bestand wordt gevraagd, anders stopt Google mogelijk met het crawlen van je site.

Geslaagde robots.txt-reacties
De volgende berichten worden beschouwd als geslaagde reacties:
- HTTP 200 en een robots.txt-bestand (het bestand kan geldig, ongeldig of leeg zijn). Als het bestand syntaxisfouten bevat, wordt het verzoek nog steeds als geslaagd beschouwd. Er bestaat wel een kans dat Google regels met syntaxisfouten negeert.
- HTTP 403/404/410 (het bestand bestaat niet). Je site hoeft geen robots.txt-bestand te bevatten.
Mislukte robots.txt-reacties
- HTTP 429/5XX (verbindingsprobleem)

Hier lees je hoe Google robots.txt-bestanden opvraagt en gebruikt tijdens het crawlen van een site:

Voordat Google je site crawlt, checkt Google eerst of er recent een geslaagd robots.txt-verzoek is uitgevoerd (minder dan 24 uur geleden).
Als Google een geslaagde robots.txt-reactie heeft die minder dan 24 uur oud is, gebruikt Google dat robots.txt-bestand bij het crawlen van je site. (Houd er rekening mee dat 404 Niet gevonden een geslaagde reactie is en betekent dat er geen robots.txt-bestand is, zodat Google alle URL's op de site kan crawlen.)
Als de laatste reactie mislukt is of meer dan 24 uur oud is, vraagt Google je robots.txt-bestand aan:
- Als de reactie geslaagd is, kan het crawlproces worden gestart.
- Als de reactie mislukt is:
  - De eerste 12 uur stopt Google met het crawlen van je site, maar blijft je robots.txt-bestand aanvragen.
  - Van 12 uur tot 30 dagen gebruikt Google het laatst opgehaalde robots.txt-bestand, terwijl je robots.txt-bestand nog steeds wordt aangevraagd.
  - Na 30 dagen:
    - Als de homepage van de site beschikbaar is, gaat Google te werk alsof er geen robots.txt-bestand is en wordt de crawl zonder beperkingen uitgevoerd.
    - Als de homepage van de site niet beschikbaar is, stopt Google met het crawlen van de site.
    - In beide gevallen blijft Google je robots.txt-bestand periodiek aanvragen.

Crawls die zijn afgebroken omdat het robots.txt-bestand niet beschikbaar was, worden meegeteld in de crawltotalen. Deze crawls zijn niet uitgevoerd, dus bepaalde groeperingsrapporten (crawlen per doel, crawls per reactie, enzovoort) vermelden die crawls niet of bevatten misschien beperkte informatie.

Crawlreacties

In deze tabel worden de reacties weergegeven die Google heeft ontvangen tijdens het crawlen van je site, gegroepeerd op reactietype, als percentage van alle crawlreacties. De gegevens zijn gebaseerd op het totale aantal verzoeken, niet op basis van URL. Als Google dus 2 keer een URL heeft aangevraagd en de eerste keer 'Serverfout (500)' ontvangt en de tweede keer 'OK (200)', is de reactie 50% 'Serverfout' en 50% 'OK'.

Waar je op moet letten

De meeste reacties moeten 200 of een andere 'goede' reactie zijn, tenzij je je site opnieuw indeelt of de site verplaatst. Bekijk de onderstaande lijst voor meer informatie over hoe je moet reageren op andere reactiecodes.

Hier volgen enkele veelvoorkomende reactiecodes en hoe je hierop kunt reageren:

Goede reactiecodes

Deze pagina's werken prima en leiden niet tot problemen.

OK (200): In normale omstandigheden moet de meerderheid van de reacties 200 reacties tellen.
Permanent verplaatst (301): Je pagina retourneert een HTTP 301- of 308-reactie (permanent verplaatst). Dit is mogelijk je bedoeling.
Tijdelijk verplaatst (302): Je pagina retourneert een HTTP 302- of 307-reactie (tijdelijk verplaatst). Dit is mogelijk je bedoeling. Als deze pagina permanent is verplaatst, wijzig je dit in 301.
Verplaatst (overig): Een meta-vernieuwing.
Niet gewijzigd (304): De pagina is niet gewijzigd sinds het laatste crawlverzoek.

Mogelijk goede reactiecodes

Deze reacties zijn mogelijk in orde, maar je kunt beter nagaan of deze reacties aansluiten op wat je voor ogen hebt.

Niet gevonden (404)-fouten kunnen worden veroorzaakt door verbroken links op of buiten je site. Het is niet mogelijk, waardevol of gewenst om alle 404-fouten op je site te verhelpen. Vaak is 404 de correcte reactie (bijvoorbeeld als de pagina echt is verdwenen en niet is vervangen). Meer informatie over hoe en of je 404-fouten kunt oplossen.

Slechte reactiecodes

Je moet pagina's die deze fouten retourneren aanpassen om het crawlproces beter te laten verlopen.

robots.txt niet beschikbaar: Als je robots.txt-bestand een dag niet beschikbaar is, stopt Google een tijdje met crawlen totdat er een acceptabele reactie wordt ontvangen voor een robots.txt-verzoek. Zorg ervoor dat je robots.txt-bestand niet is gecloakt voor Google en dat de robots.txt-pagina niet verschilt per user-agent.
Deze reactie is niet hetzelfde als de reactie Niet gevonden (404) retourneren voor een robots.txt-bestand, wat als een goede reactie wordt beschouwd. Meer informatie over robots.txt
Niet geautoriseerd (401/407): Je moet deze pagina's blokkeren voor het crawlproces via robots.txt of bepalen of deze moeten worden gedeblokkeerd. Als deze pagina's geen beveiligde gegevens bevatten en je wilt dat ze worden gecrawld, kun je overwegen de informatie naar niet-beveiligde pagina's te verplaatsen of toegang aan Googlebot toe te staan zonder login (maar onthoud dat Googlebot kan worden gespooft en de beveiliging van de pagina vervalt als je Googlebot-toegang toestaat).
Serverfout (5XX): Deze fouten leiden tot beschikbaarheidswaarschuwingen en moeten indien mogelijk worden verholpen. Het miniatuurdiagram geeft een schatting van wanneer deze fouten hebben plaatsgevonden. Je kunt klikken voor meer details en exacte tijden. Kijk of dit tijdelijke problemen zijn geweest of dat het gaat om uitgebreidere beschikbaarheidsfouten op je site. Als Google je site overspoelt met crawlverzoeken, kun je een lagere crawlsnelheid aanvragen. Als dit een indicatie is van een ernstig beschikbaarheidsprobleem, kun je hier meer lezen over crawlpieken. Zie Serverfouten voor meer informatie over het oplossen van deze fouten.
Andere clientfout (4XX): Een andere 4XX-fout (aan de clientzijde) die hier niet wordt vermeld. Je kunt deze problemen het beste proberen op te lossen.
DNS reageert niet: Je DNS-server reageert niet op verzoeken voor URL's op je site.
DNS-fout: Een andere, niet-gespecificeerde DNS-fout.
Fout bij ophalen: De pagina kan niet worden opgehaald vanwege een ongeldig poortnummer, ongeldig IP-adres of niet-parseerbare reactie.
Pagina kan niet worden bereikt: Een andere fout bij het ophalen van de pagina, waar het verzoek de server nooit heeft bereikt. Aangezien deze verzoeken de server nooit hebben bereikt, worden deze verzoeken niet in je logboeken weergegeven.
Time-out van pagina: Er is een time-out voor het paginaverzoek opgetreden.
Fout met omleiding: Een omleidingsfout voor het verzoek, zoals te veel omleidingen, een lege omleiding of een circulaire omleiding.
Andere fout: Een andere fout die niet in een van de bovenstaande categorieën past.

Gecrawlde bestandstypen

Het bestandstype dat wordt geretourneerd door het verzoek. De percentagewaarde voor elk type is het percentage reacties van dat type en niet het opgehaalde percentage bytes van dat type.

Mogelijke waarden voor bestandstype:

HTML
Afbeelding
Video: een van de ondersteunde video-indelingen.
JavaScript
Css
Pdf
Andere XML: een XML-bestand zonder RSS, KML of andere indelingen die bovenop XML zijn gebouwd.
Json
Syndicatie: een RSS- of Atom-feed
Audio
Geografische gegevens: KML of andere geografische gegevens.
Ander bestandstype: een ander bestandstype dat hier niet is gespecificeerd. Omleidingen zijn opgenomen in deze groepering.
Onbekend (mislukt): als het verzoek mislukt, is het bestandstype niet bekend.

Waar je op moet letten

Als je beschikbaarheidsproblemen of langzame reactiepercentages ziet, bekijk je deze tabel om een idee te krijgen van het soort bronnen dat Google crawlt en waarom het crawlproces hierdoor kan zijn vertraagd. Vraagt Google veel kleine afbeeldingen aan die moeten worden geblokkeerd? Vraagt Google bronnen aan die worden gehost op een andere, minder responsieve site? Klik op verschillende bestandstypen om een diagram te bekijken met de gemiddelde reactietijd per datum en het aantal verzoeken per datum om te zien of pieken in trage reacties van dat type overeenkomen met pieken in algemene vertraging of de beschikbaarheid.

Crawldoel

Ontdekking: de opgevraagde URL is nooit eerder door Google gecrawld.
Vernieuwen: een nieuwe crawl van een bekende pagina.

Als je vaak veranderende pagina's hebt die niet vaak genoeg opnieuw worden gecrawld, moet je zorgen dat deze zijn opgenomen in een sitemap. Voor pagina's die minder vaak worden geüpdatet, moet je mogelijk specifiek vragen om een nieuwe crawl. Als je onlangs veel nieuwe content hebt toegevoegd of een sitemap hebt ingediend, zou je in het ideale geval een piek in de ontdekkingscrawls op je site moeten zien.

Googlebot-type

Het type user-agent dat wordt gebruikt om het crawlverzoek uit te voeren. Google heeft een aantal user-agents die om verschillende redenen crawlen en verschillend gedrag vertonen.

Mogelijke waarden voor het Googlebot-type:

Smartphone: Googlebot-smartphone
Desktop: Googlebot-desktop
Afbeelding: Googlebot-afbeelding. Als de afbeelding wordt geladen als paginabron, wordt het Googlebot-type meegeteld als Paginabron laden en niet als Afbeelding.
Video: Googlebot-video. Als de video wordt geladen als paginabron, wordt het Googlebot-type meegeteld als Paginabron laden en niet als Video.
Paginabron laden: Een secundaire ophaalactie voor bronnen die door je pagina worden gebruikt. Als Google de pagina crawlt, worden belangrijke gekoppelde bronnen, zoals afbeeldingen of css-bestanden, opgehaald om de pagina weer te geven voordat deze wordt geïndexeerd. Dit is de user-agent die deze bronverzoeken maakt.
AdsBot: Een van de AdsBot-crawlers. Als je een piek ziet in deze verzoeken, heb je waarschijnlijk onlangs een aantal nieuwe targets voor dynamische zoekadvertenties op je site gemaakt. Zie Waarom is de crawlsnelheid toegenomen? URL's worden om de 2 weken door AdsBot gecrawld.
StoreBot: de crawler voor producten van winkels.
Ander agenttype: Een andere Google-crawler die hier niet is gespecificeerd.

Als er sprake is van crawlpieken, moet je het type user-agent checken. Zie Waarom is de crawlsnelheid toegenomen? als de pieken mogelijk worden veroorzaakt door de AdsBot-crawler.

Problemen oplossen

Crawlsnelheid te hoog

Googlebot gebruikt algoritmen om te voorkomen dat je site wordt overbelast tijdens het crawlen. Als je om welke reden dan ook de crawlsnelheid moet beperken, kun je hier meer informatie lezen.

Waarom is de crawlsnelheid toegenomen?

Als je nieuwe informatie op de site hebt geplaatst of je site erg nuttige informatie bevat, kan de site vaker worden gecrawld dan je wilt. Voorbeeld:

Je hebt een groot gedeelte van je site gedeblokkeerd voor het crawlproces.
Je hebt een groot nieuw gedeelte van je site toegevoegd.
Je hebt een groot aantal nieuwe targets voor dynamische zoekadvertenties toegevoegd door nieuwe paginafeeds of URL_Equals-regels toe te voegen.

Als je site zo vaak wordt gecrawld dat deze beschikbaarheidsproblemen ondervindt, kun je de site zo beschermen:

Bepaal welke Google-crawler je site te vaak crawlt. Bekijk je websitelogboeken of gebruik het rapport Crawlstatistieken.
Onmiddellijke oplossing:
- Als je een makkelijke oplossing wilt, gebruik je robots.txt om het crawlen te blokkeren voor de agent (googlebot, adsbot, enzovoort) die de overbelasting veroorzaakt. Het kan wel een dag duren voordat de wijzigingen in werking treden. Blokkeer de agent alleen niet te lang, want dit kan op de lange termijn gevolgen hebben voor het crawlen.
- Als je toegenomen belasting dynamisch kunt vaststellen en hierop kunt reageren, retourneer je HTTP 503/429 als je de weergavelimiet nadert. Zorg dat je 503 of 429 niet meer dan 2 of 3 dagen lang retourneert. Als je dit wel doet, kan Google een signaal ontvangen om je site op de lange termijn minder vaak te crawlen.
Als de crawlsnelheid van Google 2 of 3 dagen later is aangepast, kun je de robots.txt-blokkeringen verwijderen of geen 503- of 429-foutcodes meer retourneren.
Als je site wordt overbelast door crawls van AdsBot, is het probleem waarschijnlijk dat je te veel doelen voor dynamische zoekadvertenties op je site hebt gemaakt met URL_Equals of paginafeeds. Als je niet over de servercapaciteit beschikt om deze crawls te verwerken, moet je je advertentiedoelen beperken, URL's in kleinere batches toevoegen of je weergavecapaciteit vergroten. AdsBot crawlt je pagina's elke 2 weken. Je moet het probleem dus verhelpen om te voorkomen dat het opnieuw optreedt.

Crawlsnelheid lijkt te laag

Je kunt Google niet laten weten dat je crawlsnelheid moet worden verhoogd. Je kunt wel meer informatie doornemen over hoe je het crawlproces kunt beheren voor zeer grote of vaak geüpdatete websites.

Als je een kleine of middelgrote website hebt en van mening bent dat Google niet alles van je site crawlt, kun je de sitemaps van je website updaten en nagaan of er geen pagina's worden geblokkeerd.

Waarom is de crawlsnelheid afgenomen?

In het algemeen moet je Google-crawlsnelheid relatief stabiel zijn gedurende een periode van een of twee weken. Als je een plotselinge afname detecteert, kan dit de volgende oorzaken hebben:

Je hebt een nieuwe (of zeer brede) robots.txt-regel toegevoegd. Zorg dat je alleen bronnen blokkeert waarvoor dat nodig is. Als Google specifieke bronnen (zoals css of JavaScript) nodig heeft om de content te interpreteren, moet je zorgen dat deze bronnen niet worden geblokkeerd voor Googlebot.
Als je site langzaam reageert op verzoeken, beperkt Googlebot het aantal verzoeken om te voorkomen dat je server overbelast raakt. Check in het rapport Crawlstatistieken of je site langzamer heeft gereageerd.
Als het aantal serverfouten toeneemt, beperkt Googlebot het aantal verzoeken om te voorkomen dat je server overbelast raakt.
Als een site informatie bevat die minder vaak verandert, of als de site niet van hoge kwaliteit is, crawlen we deze mogelijk niet zo vaak. Werp een objectieve blik op je site, vraag om neutrale feedback van mensen die geen connectie met je site hebben en denk na over hoe en waar je site kan worden verbeterd.

De crawltotalen in rapporten zijn veel hoger dan de totalen in de serverlogboeken van je site

Als het totale aantal crawls in dit rapport veel hoger is dan het aantal crawlverzoeken van Google in je serverlogboeken, kan dit komen omdat Google je site niet kan crawlen omdat je robots.txt-bestand niet lang genoeg beschikbaar is. Als dit het geval is, telt Google de crawls die hadden kunnen plaatsvinden als het robots.txt-bestand beschikbaar was, maar worden deze aanroepen niet daadwerkelijk gedaan. Check de ophaalstatus van je robots.txt-bestand om na te gaan of dit het probleem is.

Was dit nuttig?

Hoe kunnen we dit verbeteren?