Het rapport Crawlstatistieken

Het rapport Crawlstatistieken bevat statistieken over de crawlgeschiedenis van Google op je website. Denk hierbij aan het aantal gestuurde verzoeken en wanneer deze zijn gestuurd, wat de reactie van je server hierop is geweest en welke beschikbaarheidsproblemen zijn opgetreden. Je kunt dit rapport gebruiken om te zien of Google weergaveproblemen ondervindt tijdens het crawlen van je site.

Dit rapport is bedoeld voor gevorderde gebruikers. Als je een site met minder dan 1000 pagina's hebt, hoef je dit rapport niet te gebruiken en heb je dit detailniveau op het gebied van crawlen waarschijnlijk niet nodig.

Dit rapport is alleen beschikbaar voor property's op rootniveau. Dat wil zeggen dat de property een domeinproperty moet zijn (zoals example.com of m.example.com) of een property met een URL-voorvoegsel op rootniveau (https://example.com, http://example.com, http://m.example.com).

Het rapport Crawlstatistieken openen

Crawl Budget and the Crawl Stats report - Google Search Console Training

Je vindt het rapport Crawlstatistieken in Search Console door te klikken op Instellingen (Property-instellingen) > Crawlstatistieken.

Aan de slag

Zorg dat je de volgende informatie begrijpt voordat je dit rapport gebruikt:

Over de gegevens

  • Alle weergegeven en meegetelde URL's zijn de URL's die daadwerkelijk zijn aangevraagd door Google. Gegevens worden niet toegewezen aan canonieke URL's zoals in sommige andere rapporten gebeurt.
  • Als een URL een omleiding heeft, wordt elk verzoek in de omleidingsketen geteld als een afzonderlijk verzoek. Stel dat pagina1 wordt omgeleid naar pagina2, die op zijn beurt wordt omgeleid naar pagina3. Als Google pagina1 aanvraagt, zie je afzonderlijke verzoeken voor pagina1 (retourneert 301/302), pagina2 (retourneert 301/302) en pagina3 (retourneert hopelijk 200). Je ziet alleen pagina's in het huidige domein.
  • Crawls die zijn overwogen maar niet uitgevoerd omdat robots.txt niet beschikbaar was, tellen mee voor de crawltotalen, maar niet in de gedeelten met crawlgegevens. Meer informatie
  • Bronnen en bereik:
    • Alle gegevens zijn beperkt tot het geselecteerde domein. Verzoeken aan andere domeinen worden niet weergegeven. Dit omvat verzoeken voor paginabronnen (zoals afbeeldingen) die buiten deze property worden gehost. Als je pagina example.com/mypage bijvoorbeeld de afbeelding google.com/img.png bevat, zie je het verzoek voor google.com/img.png niet in het rapport Crawlstatistieken voor de property example.com.
    • Ook zie je geen verzoeken voor een domein op hetzelfde niveau (en.example en de.example). Als je dus het rapport Crawlstatistieken voor en.example bekijkt, zie je geen verzoeken voor een afbeelding op de.example.
    • Je kunt verzoeken tussen subdomeinen bekijken via het bovenliggende domein. Als je bijvoorbeeld de gegevens voor example.com bekijkt, kun je alle verzoeken zien van example.com, en.example, de.example.com en andere onderliggende domeinen op elk niveau onder example.com.
    • Als de bronnen van je property worden gebruikt door een pagina in een ander domein, zie je misschien crawlverzoeken die zijn gekoppeld aan de hostpagina, maar zie je geen context die aangeeft dat de bron wordt gecrawld, omdat deze door een pagina op een ander domein wordt gebruikt. (Je ziet niet dat de afbeelding example.com/imageX.png is gecrawld, omdat deze is opgenomen op de pagina anotherexample.com/mypage.)
    • Crawlgegevens omvatten zowel HTTP- als HTTPS-protocollen, zelfs voor property's met een URL-voorvoegsel. Dit betekent dat het rapport Crawlstatistieken voor http://example.com verzoeken bevat van zowel http://example.com als https://example.com. Maar de voorbeeld-URL's voor property's met een URL-voorvoegsel zijn beperkt tot het protocol dat voor de property is gedefinieerd (HTTP of HTTPS).
Bekend probleem: Het rapport Crawlstatistieken rapporteert momenteel de meeste crawlverzoeken, maar sommige verzoeken worden om verschillende redenen niet geteld. We verwachten dat de dekking in de loop van de tijd toeneemt, zodat de meeste of zelfs alle verzoeken worden meegenomen. Daarom kun je kleine verschillen zien tussen de verzoeklogboeken van je site en de cijfers die hier worden gerapporteerd.

Navigeren in het rapport

Klik op een tabelitem voor een gedetailleerde weergave voor dat item, waaronder een lijst met voorbeeld-URL's. Klik op een URL voor meer informatie over dat specifieke crawlverzoek. Voorbeeld: Klik in de tabel waarin reacties zijn gegroepeerd per type op de rij HTML om de verzamelde crawlgegevens te bekijken voor alle HTML-pagina's die zijn gecrawld op je site. Ook kun je zo details (zoals de crawltijd, de reactiecode en de reactiegrootte) bekijken voor een selectie van die URL's.

Hosts en onderliggende domeinen

Als je property zich op domeinniveau bevindt (example.com, http://example.com, https://m.example.com) en 2 of meer onderliggende domeinen heeft (bijvoorbeeld fr.example.com en de.example.com), kun je gegevens bekijken van het bovenliggende domein (dat alle onderliggende domeinen omvat) of van één onderliggend domein.

Als je het rapport van een specifiek onderliggend domein wilt bekijken, klik je op het onderliggende domein in de lijsten Hosts op de bestemmingspagina van het bovenliggende domein. Je ziet alleen de top 20 van onderliggende domeinen die in de afgelopen 90 dagen verkeer hebben gegenereerd.

Voorbeeld-URL's

Je kunt klikken op de items van de gegroepeerde gegevenstypen (reactie, bestandstype, doel, Googlebot-type) om een lijst met voorbeeld-URL's van dat type te bekijken.

Voorbeeld-URL's zijn niet volledig, maar slechts een representatief voorbeeld. Als je een bepaalde URL niet ziet, betekent dit niet dat we deze niet hebben aangevraagd. Het aantal voorbeelden kan per dag worden gewogen, dus het is mogelijk dat sommige typen verzoeken meer voorbeelden hebben dan andere typen. Na verloop van tijd ontstaat er balans.

Totaal aantal crawlverzoeken

Het totale aantal crawlverzoeken dat is ingediend voor URL's op je site, ongeacht of een verzoek is geslaagd. Dit omvat verzoeken voor bronnen die door de pagina worden gebruikt als deze bronnen op je site staan. Verzoeken naar buiten je site gehoste bronnen worden niet meegeteld. Dubbele verzoeken voor dezelfde URL worden afzonderlijk geteld. Als je robots.txt-bestand onvoldoende beschikbaar is, worden mogelijke ophaalacties geteld.

Mislukte verzoeken die worden geteld, zijn onder andere:

Totale downloadgrootte

Het totale aantal bytes dat via je site is gedownload tijdens het crawlproces in de opgegeven periode. Als Google een paginabron in het cachegeheugen heeft opgeslagen die door meerdere pagina's wordt gebruikt, wordt de bron alleen de eerste keer aangevraagd (wanneer de pagina in het cachegeheugen wordt opgeslagen).

Gemiddelde reactietijd

Gemiddelde reactietijd voor alle bronnen die zijn opgehaald van je site in de opgegeven periode. Elke bron die door een pagina wordt gelinkt, wordt geteld als afzonderlijke reactie.

Status van de host

Status van de host geeft aan of Google beschikbaarheidsproblemen heeft ondervonden tijdens het crawlen van je site. De status kan een van de volgende waarden zijn:

  • No significant availability issues icon
    Google heeft in de afgelopen 90 dagen geen aanzienlijke beschikbaarheidsproblemen ondervonden tijdens het crawlproces op je site. Je hoeft verder niets te doen.
  • Some availability issues, but not recently
    Google heeft in de afgelopen 90 dagen ten minste één aanzienlijk beschikbaarheidsprobleem ondervonden tijdens het crawlproces op je site, maar dit probleem heeft zich meer dan een week geleden voorgedaan. Deze foutmelding kan voorkomen als er sprake is van een tijdelijk probleem of als het probleem is verholpen. Check de tabel Reactie om te zien wat de problemen zijn geweest en te kijken of je actie moet ondernemen.
  • Recent availability issue
    Google heeft in de afgelopen week ten minste één aanzienlijk beschikbaarheidsprobleem ondervonden tijdens het crawlproces op je site. Aangezien dit probleem zich onlangs heeft voorgedaan, moet je zien te achterhalen of dit een terugkerend probleem is. Check de tabel Reactie om te zien wat de problemen zijn geweest en te kijken of je actie moet ondernemen.
Waar je op moet letten

In het ideale geval is je status van de host Groen. Als je beschikbaarheidsstatus rood is, klik je om de beschikbaarheidsgegevens te bekijken voor de beschikbaarheid van robots.txt, DNS-omzetting en de hostconnectiviteit.

Informatie over de status van de host

De beschikbaarheidsstatus van de host wordt onderverdeeld in de volgende categorieën. Een aanzienlijke fout in een van de categorieën kan leiden tot een lagere beschikbaarheidsstatus. Klik op een categorie in het rapport voor meer informatie.

Je ziet voor elke categorie een diagram met crawlgegevens voor de periode. Het diagram heeft een rode stippellijn. Als de statistiek boven de stippellijn van deze categorie ligt (bijvoorbeeld als de DNS-omzetting voor meer dan 5% van de verzoeken op een bepaalde dag mislukt), wordt dit beschouwd als een probleem voor die categorie en weerspiegelt de status de recentheid van het laatste probleem.

  • robots.txt ophalen
    Het diagram toont het foutpercentage voor robots.txt-verzoeken tijdens een crawl. Google vraagt dit bestand regelmatig aan. Als het verzoek geen geldig bestand retourneert (een gevuld of leeg bestand) of een 404-reactie genereert (bestand bestaat niet), kan Google het crawlproces voor je site vertragen of stoppen totdat een acceptabele robots.txt-reactie wordt ontvangen. (Zie hieronder voor meer informatie)
  • DNS-omzetting
    In het diagram zie je wanneer je DNS-server je hostnaam niet heeft herkend of geen reactie heeft gestuurd tijdens het crawlen. Als je fouten ziet, neem je contact op met je registreerder om na te gaan of je site correct is ingesteld en of je server verbinding heeft met internet.
  • Serverconnectiviteit
    Het diagram geeft aan wanneer je server niet heeft gereageerd of geen volledige reactie heeft geleverd voor een URL tijdens een crawl. Zie Serverfouten voor meer informatie over het oplossen van deze fouten.
Meer informatie over de beschikbaarheid van robots.txt

Hier volgt een gedetailleerdere beschrijving van de manier waarop Google robots.txt-bestanden op je site checkt (en hiervan afhankelijk is) tijdens het crawlproces.

Je site hoeft geen robots.txt-bestand te bevatten, maar de site moet een geslaagde reactie (zoals hieronder gedefinieerd) retourneren wanneer er om dit bestand wordt gevraagd, anders stopt Google mogelijk met het crawlen van je site.

  • Geslaagde robots.txt-reacties
  • De volgende berichten worden beschouwd als geslaagde reacties:
    • HTTP 200 en een robots.txt-bestand (het bestand kan geldig, ongeldig of leeg zijn). Als het bestand syntaxisfouten bevat, wordt het verzoek nog steeds als geslaagd beschouwd. Er bestaat wel een kans dat Google regels met syntaxisfouten negeert.
    • HTTP 403/404/410 (het bestand bestaat niet). Je site hoeft geen robots.txt-bestand te bevatten.
  • Mislukte robots.txt-reacties

Hier lees je hoe Google robots.txt-bestanden opvraagt en gebruikt tijdens het crawlen van een site:

  1. Voordat Google je site crawlt, checkt Google eerst of er recent een geslaagd robots.txt-verzoek is uitgevoerd (minder dan 24 uur geleden).
  2. Als Google een recente geslaagde robots.txt-reactie vindt, wordt het crawlproces gestart, waarbij rekening wordt gehouden met de opgehaalde robots.txt-regels.
  3. Als Google geen recente geslaagde robots.txt-reactie vindt of als de laatste reactie is mislukt, vraagt Google je robots.txt-bestand aan:
    • Als de reactie is geslaagd, kan het crawlproces worden gestart.
    • Als de reactie is mislukt, stopt Google met crawlen, maar blijft Google ongeveer 30 dagen lang verzoeken indienen voor je robots.txt-bestand. Als Google na 30 dagen nog steeds geen geslaagde robots.txt-reactie heeft ontvangen:
      • Als de meeste andere URL's op de site toegankelijk zijn, gebruikt Google de laatst opgehaalde geslaagde robots.txt-regels en wordt op basis daarvan gecrawld.
      • Als de site over het algemeen ontoegankelijk is, stopt Google na verloop van tijd met het crawlen van je site.
Crawls die zijn afgebroken omdat het robots.txt-bestand niet beschikbaar was, worden meegeteld in de crawltotalen. Deze crawls zijn niet uitgevoerd, dus hiervoor zie je geen gegevens in de groeperingsrapporten (crawlen per doel, crawls per reactie, enzovoort).

Crawlreacties

In deze tabel worden de reacties weergegeven die Google heeft ontvangen tijdens het crawlen van je site, gegroepeerd op reactietype, als percentage van alle crawlreacties. De gegevens zijn gebaseerd op het totale aantal verzoeken, niet op basis van URL. Als Google dus 2 keer een URL heeft aangevraagd en de eerste keer 'Serverfout (500)' ontvangt en de tweede keer 'OK (200)', is de reactie 50% 'Serverfout' en 50% 'OK'.

Waar je op moet letten
De meeste reacties moeten 200 of een andere 'goede' reactie zijn, tenzij je je site opnieuw indeelt of de site verplaatst. Bekijk de onderstaande lijst voor meer informatie over hoe je moet reageren op andere reactiecodes.

 

Hier volgen enkele veelvoorkomende reactiecodes en hoe je hierop kunt reageren:

Goede reactiecodes

Deze pagina's werken prima en leiden niet tot problemen.

  • OK (200): In normale omstandigheden moet de meerderheid van de reacties 200 reacties tellen.
  • Permanent verplaatst (301): Je pagina retourneert een HTTP 301-reactie (permanent verplaatst). Dit is mogelijk je bedoeling.
  • Tijdelijk verplaatst (302): Je pagina retourneert een HTTP 302-reactie (tijdelijk verplaatst). Dit is mogelijk je bedoeling. Als deze pagina permanent is verplaatst, wijzig je dit in 301.
  • Verplaatst (overig): Nog een 300-omleidingsreactie (niet 301 of 302).
  • Niet gewijzigd (304): De pagina is niet gewijzigd sinds het laatste crawlverzoek.

Mogelijk goede reactiecodes

Deze reacties zijn mogelijk in orde, maar je kunt beter nagaan of deze reacties aansluiten op wat je voor ogen hebt.

  • Geblokkeerd door robots.txt: Dit werkt zoals je hebt bedoeld. Het is handig om te zorgen dat je geen pagina's of bronnen blokkeert die je wel door Google wilt laten crawlen. Meer informatie over robots.txt-bestanden.
  • Niet gevonden (404)-fouten kunnen worden veroorzaakt door verbroken links op of buiten je site. Het is niet mogelijk, waardevol of gewenst om alle 404-fouten op je site te verhelpen. Vaak is 404 de correcte reactie (bijvoorbeeld als de pagina echt is verdwenen en niet is vervangen). Meer informatie over hoe en of je 404-fouten kunt oplossen.

Slechte reactiecodes

Je moet pagina's die deze fouten retourneren aanpassen om het crawlproces beter te laten verlopen.

  • robots.txt niet beschikbaar: Als je robots.txt-bestand een dag niet beschikbaar is, stopt Google een tijdje met crawlen totdat er een acceptabele reactie wordt ontvangen voor een robots.txt-verzoek. Dit is niet hetzelfde als 'Niet gevonden (404)' in een robots.txt-bestand. Die melding is acceptabel. Bekijk meer informatie over robots.txt.
  • Niet geautoriseerd (401/407): Je moet deze pagina's blokkeren voor het crawlproces via robots.txt of bepalen of deze moeten worden gedeblokkeerd. Als deze pagina's geen beveiligde gegevens bevatten en je wilt dat ze worden gecrawld, kun je overwegen de informatie naar niet-beveiligde pagina's te verplaatsen of toegang aan Googlebot toe te staan zonder login (maar onthoud dat Googlebot kan worden gespooft en de beveiliging van de pagina vervalt als je Googlebot-toegang toestaat).
  • Serverfout (5XX): Deze fouten leiden tot beschikbaarheidswaarschuwingen en moeten indien mogelijk worden verholpen. Het miniatuurdiagram geeft een schatting van wanneer deze fouten hebben plaatsgevonden. Je kunt klikken voor meer details en exacte tijden. Kijk of dit tijdelijke problemen zijn geweest of dat het gaat om uitgebreidere beschikbaarheidsfouten op je site. Als Google je site overspoelt met crawlverzoeken, kun je een lagere crawlsnelheid aanvragen. Als dit een indicatie is van een ernstig beschikbaarheidsprobleem, kun je hier meer lezen over crawlpieken. Zie Serverfouten voor meer informatie over het oplossen van deze fouten.
  • Andere clientfout (4XX): Een andere 4XX-fout (aan de clientzijde) die hier niet wordt vermeld. Je kunt deze problemen het beste proberen op te lossen.
  • DNS reageert niet: Je DNS-server reageert niet op verzoeken voor URL's op je site.
  • DNS-fout: Een andere, niet-gespecificeerde DNS-fout.
  • Fout bij ophalen: De pagina kan niet worden opgehaald vanwege een ongeldig poortnummer, ongeldig IP-adres of niet-parseerbare reactie.
  • Pagina kan niet worden bereikt: Een andere fout bij het ophalen van de pagina, waar het verzoek de server nooit heeft bereikt. Aangezien deze verzoeken de server nooit hebben bereikt, worden deze verzoeken niet in je logboeken weergegeven.
  • Time-out van pagina: Er is een time-out voor het paginaverzoek opgetreden.
  • Fout met omleiding: Een omleidingsfout voor het verzoek, zoals te veel omleidingen, een lege omleiding of een circulaire omleiding.
  • Andere fout: Een andere fout die niet in een van de bovenstaande categorieën past.

Gecrawlde bestandstypen

Het bestandstype dat wordt geretourneerd door het verzoek. De percentagewaarde voor elk type is het percentage reacties van dat type en niet het opgehaalde percentage bytes van dat type.

Mogelijke waarden:

  • HTML
  • Afbeelding
  • Video: een van de ondersteunde video-indelingen.
  • JavaScript
  • Css
  • Pdf
  • Andere XML: een XML-bestand zonder RSS, KML of andere indelingen die bovenop XML zijn gebouwd.
  • Json
  • Syndicatie: een RSS- of Atom-feed
  • Audio
  • Geografische gegevens: KML of andere geografische gegevens.
  • Ander bestandstype: een ander bestandstype dat hier niet is gespecificeerd.
  • Onbekend (mislukt): als het verzoek mislukt, is het bestandstype niet bekend.
Waar je op moet letten
Als je beschikbaarheidsproblemen of langzame reactiepercentages ziet, bekijk je deze tabel om een idee te krijgen van het soort bronnen dat Google crawlt en waarom het crawlproces hierdoor kan zijn vertraagd. Vraagt Google veel kleine afbeeldingen aan die moeten worden geblokkeerd? Vraagt Google bronnen aan die worden gehost op een andere, minder responsieve site? Klik op verschillende bestandstypen om een diagram te bekijken met de gemiddelde reactietijd per datum en het aantal verzoeken per datum om te zien of pieken in trage reacties van dat type overeenkomen met pieken in algemene vertraging of de beschikbaarheid.

Crawldoel

  • Ontdekking: de opgevraagde URL is nooit eerder door Google gecrawld.
  • Vernieuwen: een nieuwe crawl van een bekende pagina.

Als je vaak veranderende pagina's hebt die niet vaak genoeg opnieuw worden gecrawld, moet je zorgen dat deze zijn opgenomen in een sitemap. Voor pagina's die minder vaak worden geüpdatet, moet je mogelijk specifiek vragen om een nieuwe crawl. Als je onlangs veel nieuwe content hebt toegevoegd of een sitemap hebt ingediend, zou je in het ideale geval een piek in de ontdekkingscrawls op je site moeten zien.

Googlebot-type

Het type user-agent dat wordt gebruikt om het crawlverzoek uit te voeren. Google heeft een aantal user-agents die om verschillende redenen crawlen en verschillend gedrag vertonen. De volgende typen worden gerapporteerd.

  • Smartphone: Googlebot-smartphone
  • Desktop: Googlebot-desktop
  • Afbeelding: Googlebot-afbeelding. Als de afbeelding wordt geladen als paginabron, wordt het Googlebot-type meegeteld als Paginabron laden en niet als Afbeelding.
  • Video: Googlebot-video. Als de video wordt geladen als paginabron, wordt het Googlebot-type meegeteld als Paginabron laden en niet als Video.
  • Paginabron laden: Een secundaire ophaalactie voor bronnen die door je pagina worden gebruikt. Als Google de pagina crawlt, worden belangrijke gekoppelde bronnen, zoals afbeeldingen of css-bestanden, opgehaald om de pagina weer te geven voordat deze wordt geïndexeerd. Dit is de user-agent die deze bronverzoeken maakt.
  • AdsBot: Een van de AdsBot-crawlers. Als je een piek ziet in deze verzoeken, heb je waarschijnlijk onlangs een aantal nieuwe targets voor dynamische zoekadvertenties op je site gemaakt. Zie Waarom is de crawlsnelheid toegenomen? URL's worden om de 2 weken door AdsBot gecrawld.
  • StoreBot: de crawler voor producten van winkels.
  • Ander agenttype: Een andere Google-crawler die hier niet is gespecificeerd.

De meeste van je crawlverzoeken moeten afkomstig zijn van je primaire crawler. Als er sprake is van crawlpieken, moet je het type user-agent checken. Zie Waarom is de crawlsnelheid toegenomen? als de pieken mogelijk worden veroorzaakt door de AdsBot-crawler.

Problemen oplossen

Crawlsnelheid te hoog

Googlebot gebruikt algoritmen om te voorkomen dat je site wordt overbelast tijdens het crawlen. Als je om welke reden dan ook de crawlsnelheid moet beperken, kun je hier meer informatie lezen.

Enkele tips om je crawlsnelheid te verlagen:

  • Verfijn je robots.txt-bestand om pagina's te blokkeren die niet moeten worden aangeroepen.
  • Als kortetermijnoplossing kun je de gewenste maximale crawlsnelheid instellen in Search Console. We raden je af deze oplossing op de lange termijn te gebruiken, omdat je ons zo niet expliciet laat weten welke pagina's of bronnen je wel of niet wilt laten crawlen.
  • Zorg dat je crawlen niet toestaat voor pagina's met 'oneindige' resultaten, zoals een oneindige kalender of oneindige zoekpagina. Blokkeer ze met het robots.txt-bestand of nofollow-tags.
  • Als URL's niet meer bestaan of zijn verplaatst, moet je zorgen dat je de juiste reactiecodes retourneert. Gebruik 404 of 410 voor URL's die niet meer bestaan of ongeldig zijn, 301-omleidingen voor URL's die permanent zijn vervangen door andere (302 als dit niet permanent is), 503 voor tijdelijke, geplande downtime en zorg dat je server een 500-fout retourneert wanneer deze problemen tegenkomt die niet kunnen worden verwerkt.
  • Zie Waarom is de crawlsnelheid toegenomen? hieronder als je site wordt overspoeld door verzoeken en je snel het aantal verzoeken wilt terugdringen.

Waarom is de crawlsnelheid toegenomen?

Als je nieuwe informatie op de site hebt geplaatst of je site erg nuttige informatie bevat, kan de site vaker worden gecrawld dan je wilt. Voorbeeld:

  • Je hebt een groot gedeelte van je site gedeblokkeerd voor het crawlproces.
  • Je hebt een groot nieuw gedeelte van je site toegevoegd.
  • Je hebt een groot aantal nieuwe targets voor dynamische zoekadvertenties toegevoegd door nieuwe paginafeeds of URL_Equals-regels toe te voegen.

Als je site zo vaak wordt gecrawld dat deze beschikbaarheidsproblemen ondervindt, kun je de site zo beschermen:

  1. Bepaal welke Google-crawler je site te vaak crawlt. Bekijk je websitelogboeken of gebruik het rapport Crawlstatistieken.
  2. Onmiddellijke oplossing:
    • Als je een makkelijke oplossing wilt, gebruik je robots.txt om het crawlen te blokkeren voor de agent (googlebot, adsbot, enzovoort) die de overbelasting veroorzaakt. Het kan wel een dag duren voordat de wijzigingen in werking treden.
    • Als je toegenomen belasting dynamisch kunt vaststellen en hierop kunt reageren, retourneer je HTTP 5XX/429 als je de weergavelimiet nadert. Zorg dat je 5XX of 429 niet meer dan twee of drie dagen lang retourneert. Als je dit wel doet, kan Google een signaal ontvangen om je site op de lange termijn minder vaak te crawlen.
  3. Wijzig de crawlsnelheid op de pagina 'Instellingen voor crawlsnelheid' (als die optie beschikbaar is).
  4. Als de crawlsnelheid van Google twee of drie dagen later is aangepast, kun je de robots.txt-blokkeringen verwijderen of ophouden met het retourneren van de foutcodes uit stap 1.
  5. Als je site wordt overbelast door crawls van AdsBot, is het probleem waarschijnlijk dat je te veel doelen voor dynamische zoekadvertenties op je site hebt gemaakt met URL_Equals of paginafeeds. Als je niet over de servercapaciteit beschikt om deze crawls te verwerken, moet je je advertentiedoelen beperken, URL's in kleinere batches toevoegen of je weergavecapaciteit vergroten. AdsBot crawlt je pagina's elke 2 weken. Je moet het probleem dus verhelpen om te voorkomen dat het opnieuw optreedt.
  6. Als je de crawlsnelheid hebt beperkt via de pagina met crawlinstellingen, wordt de crawlsnelheid na 90 dagen weer automatisch aangepast.

Crawlsnelheid te laag

Je kunt Google niet laten weten dat je crawlsnelheid moet worden verhoogd (tenzij je de snelheid expliciet hebt verlaagd voor je property). Je kunt echter meer informatie lezen over hoe je het crawlproces kunt beheren voor zeer grote of vaak geüpdatete websites.

Als je een kleine of middelgrote website hebt en van mening bent dat Google niet alles van je site crawlt, kun je de sitemaps van je website updaten en nagaan of er geen pagina's worden geblokkeerd.

Waarom is de crawlsnelheid afgenomen?

In het algemeen moet je Google-crawlsnelheid relatief stabiel zijn gedurende een periode van een of twee weken. Als je een plotselinge afname detecteert, kan dit de volgende oorzaken hebben:

  • Je hebt een nieuwe (of zeer brede) robots.txt-regel toegevoegd. Zorg dat je alleen bronnen blokkeert waarvoor dat nodig is. Als Google specifieke bronnen (zoals css of JavaScript) nodig heeft om de content te interpreteren, moet je zorgen dat deze bronnen niet worden geblokkeerd voor Googlebot.
  • Niet-werkende HTML-code of niet-ondersteunde content op je pagina's. Als Googlebot de content van de pagina niet kan parseren (omdat de pagina misschien een niet-ondersteund mediatype gebruikt of de pagina alleen bestaat uit afbeeldingen), kan Googlebot de pagina niet crawlen. Gebruik de URL-inspectietool om te bekijken hoe Google je pagina ziet.
  • Als je site langzaam reageert op verzoeken, beperkt Googlebot het aantal verzoeken om te voorkomen dat je server overbelast raakt. Check in het rapport Crawlstatistieken of je site langzamer heeft gereageerd.
  • Als het aantal serverfouten toeneemt, beperkt Googlebot het aantal verzoeken om te voorkomen dat je server overbelast raakt.
  • Check of je de gewenste maximale crawlsnelheid hebt verlaagd.
  • Als een site informatie bevat die minder vaak verandert, of als de site niet van hoge kwaliteit is, crawlen we deze mogelijk niet zo vaak. Werp een objectieve blik op je site, vraag om neutrale feedback van mensen die geen connectie met je site hebben en denk na over hoe en waar je site kan worden verbeterd.

Crawltotalen veel hoger dan totalen in crawllogboeken of in het gedeelte met crawlgegevens

Als het totale aantal crawls veel hoger is dan de totalen in de gedeelten met uitsplitsingen voor crawlverzoeken (op basis van type, enzovoort), kan dit komen omdat Google je site niet kan crawlen omdat je robots.txt-bestand niet lang genoeg beschikbaar is. Als dit het geval is, telt Google de crawls die hadden kunnen plaatsvinden als het robots.txt-bestand beschikbaar was, maar worden deze aanroepen niet daadwerkelijk gedaan. Check de status van je robots.txt-bestand om na te gaan of dit het probleem is.

Was dit nuttig?
Hoe kunnen we dit verbeteren?