Zoeken
Zoekopdracht verwijderen
Zoeken sluiten
Google-apps
Hoofdmenu

Googlebot

Googlebot is de webcrawlingbot van Google (soms ook wel een 'spider' genoemd). Crawlen of doorzoeken is het proces waarmee Googlebot nieuwe en geüpdatete pagina's opspoort die moeten worden toegevoegd aan de index van Google.

We gebruiken een gigantisch aantal computers om miljarden pagina's op internet te doorzoeken (of 'crawlen'). Googlebot maakt gebruik van een algoritmisch crawlproces. Computerprogramma's bepalen welke sites worden gecrawld, hoe vaak dat gebeurt en hoeveel pagina's van elke site worden opgehaald.

Het crawlproces van Googlebot begint met een lijst van URL's van webpagina's, die wordt gegenereerd aan de hand van vorige crawlprocessen en die wordt uitgebreid met sitemapgegevens die worden geleverd door webmasters. Googlebot bezoekt al deze websites. Links (SRC en HREF) die op elke pagina worden aangetroffen, worden toegevoegd aan de lijst van pagina's die moeten worden gecrawld. Nieuwe sites, wijzigingen in bestaande sites en verbroken links worden allemaal geregistreerd en worden gebruikt om de index van Google te updaten.

Voor webmasters: Googlebot en uw site

Hoe Googlebot toegang krijgt tot uw site

Voor de meeste sites geldt dat Googlebot niet vaker dan gemiddeld één keer per enkele seconden toegang heeft tot uw site. Het is echter mogelijk dat het aantal keren iets hoger ligt binnen een korte periode door vertraging op het netwerk.

Googlebot is ontworpen om op verschillende machines te worden gedistribueerd om de prestaties en schaal te verbeteren naarmate internet wordt uitgebreid. Daarnaast voeren we veel crawlers uit op computers in de buurt van de sites die ze indexeren in het netwerk om het bandbreedtegebruik te beperken. Daarom kunnen in uw logbestanden bezoeken van verschillende computers op google.com worden weergegeven, allemaal met de user-agent Googlebot. Ons doel is per bezoek zo veel mogelijk pagina's van uw site te crawlen, zonder de bandbreedte van uw server te veel te belasten. Vraag een wijziging in de crawlsnelheid aan.

Googlebot blokkeren voor inhoud op uw site

Het is bijna onmogelijk een webserver geheim te houden door geen links naar de betreffende webserver te publiceren. Zodra iemand een link van uw 'geheime' server volgt naar een andere webserver, kan uw 'geheime' URL worden weergegeven in de verwijzingstag en kan deze URL worden opgeslagen en gepubliceerd in het verwijzingslogbestand van de andere webserver. Verder bevat internet veel verouderde en verbroken links. Wanneer iemand een verkeerde link naar uw site publiceert of de links niet updatet om wijzigingen in uw server te weerspiegelen, probeert Googlebot een verkeerde link van uw site te downloaden.

Als u wilt voorkomen dat Googlebot inhoud op uw site crawlt, heeft u een aantal opties, waaronder het gebruik van robots.txt om de toegang tot bestanden en mappen op uw server te blokkeren.

Zodra u een robots.txt-bestand heeft gemaakt, kan het enige tijd duren voordat Googlebot uw wijzigingen ontdekt. Als Googlebot nog steeds inhoud crawlt die u heeft geblokkeerd in robots.txt, moet u controleren of u robots.txt op de juiste locatie heeft geplaatst. Het bestand moet in de hoofdmap van de server (bijvoorbeeld www.example.com/robots.txt) worden geplaatst. Als u het bestand in een submap plaatst, heeft dit geen enkel effect.

Als u alleen de foutberichten 'bestand niet gevonden' in uw webserverlogbestand wilt voorkomen, kunt u een leeg bestand met de naam robots.txt maken. Als u wilt voorkomen dat Googlebot links op een pagina van uw site volgt, kunt u de nofollow-metatag gebruiken. Als u wilt voorkomen dat Googlebot een afzonderlijke link volgt, voegt u het kenmerk rel="nofollow" aan de link zelf toe.

Hier volgen enkele extra tips:

  • Test of uw robots.txt werkt zoals verwacht. Met de testtool voor robots.txt op de pagina Geblokkeerde URL's kunt u precies zien hoe Googlebot de inhoud van uw robots.txt-bestand interpreteert. De Google-user-agent is (toepasselijk genoeg) Googlebot.
  • Met de tool Fetchen als Google in Search Console kunt u precies bekijken hoe Googlebot uw site ziet. Dit kan erg handig zijn wanneer u problemen met de inhoud of vindbaarheid van uw site in de zoekresultaten moet oplossen.

Ervoor zorgen dat uw site crawlbaar is

Met Googlebot worden sites gevonden door links van pagina naar pagina te volgen. Op de pagina Crawlfouten in Search Console worden eventuele problemen weergegeven die Googlebot heeft gevonden tijdens het crawlen van uw site. We raden u aan deze crawlfouten regelmatig te controleren om eventuele problemen met uw site te identificeren.

Als uw robots.txt-bestand werkt zoals verwacht, maar uw site geen verkeer ontvangt, volgen hier enkele mogelijk redenen waarom uw inhoud niet goed presteert voor zoekopdrachten.

Problemen met spammers en andere user-agents

De IP-adressen die door Googlebot worden gebruikt, worden soms gewijzigd. U kunt de bezoeken van Googlebot het best achterhalen via de User-agent (Googlebot). U kunt controleren of een bot die toegang tot uw server krijgt, daadwerkelijk Googlebot is door een reverse DNS-lookup uit te voeren.

Googlebot en alle betrouwbare zoekmachinebots respecteren de richtlijnen in robots.txt, maar bepaalde nogoodniks en spammers doen dit niet. Meld spam aan Google.

Google heeft verschillende andere user-agents, waaronder Feedfetcher (user-agent Feedfetcher-Google). Aangezien Feedfetcher-verzoeken afkomstig zijn van menselijke gebruikers die de feeds hebben toegevoegd aan hun Google-startpagina, en niet van geautomatiseerde crawlers, volgt Feedfetcher de richtlijnen van robots.txt niet. U kunt voorkomen dat Feedfetcher uw site crawlt door uw server zo te configureren dat een 404- of 410-bericht of een ander foutstatusbericht wordt weergegeven voor user-agent Feedfetcher-Google. Meer informatie over Feedfetcher.

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?