Googlebot

Googlebot is de webcrawlingbot van Google (soms ook wel een 'spider' genoemd). Crawlen of doorzoeken is het proces waarmee Googlebot nieuwe en geüpdatete pagina's opspoort die moeten worden toegevoegd aan de index van Google.

We gebruiken een gigantisch aantal computers om miljarden pagina's op internet te doorzoeken (of 'crawlen'). Googlebot maakt gebruik van een algoritmisch crawlproces. Computerprogramma's bepalen welke sites worden gecrawld, hoe vaak dat gebeurt en hoeveel pagina's van elke site worden opgehaald.

Hoe Googlebot toegang krijgt tot je site

Voor de meeste sites geldt dat Googlebot niet vaker dan gemiddeld één keer per enkele seconden toegang heeft tot je site. Het is echter mogelijk dat het aantal keren iets hoger ligt binnen een korte periode door vertraging op het netwerk.

Googlebot is ontworpen om op verschillende machines te worden gedistribueerd om de prestaties en schaal te verbeteren naarmate internet wordt uitgebreid. Daarnaast voeren we veel crawlers uit op computers in de buurt van de sites die ze indexeren in het netwerk om het bandbreedtegebruik te beperken. Daarom kunnen in je logbestanden bezoeken van verschillende computers op google.com worden weergegeven, allemaal met de user-agent Googlebot. Ons doel is per bezoek zo veel mogelijk pagina's van je site te crawlen, zonder de bandbreedte van je server te veel te belasten. Vraag een wijziging in de crawlsnelheid aan.

Googlebot blokkeren voor content op je site

Het is bijna onmogelijk een webserver geheim te houden door geen links naar de betreffende webserver te publiceren. Zodra iemand een link van je 'geheime' server volgt naar een andere webserver, kan je 'geheime' URL worden weergegeven in de verwijzingstag en kan deze URL worden opgeslagen en gepubliceerd in het verwijzingslogbestand van de andere webserver. Verder bevat internet veel verouderde en verbroken links. Wanneer iemand een verkeerde link naar je site publiceert of de links niet updatet om wijzigingen in je server te weerspiegelen, probeert Googlebot een verkeerde link van je site te downloaden.

Als je wilt voorkomen dat Googlebot content op je site crawlt, heb je verschillende opties. Houd rekening met het verschil tussen voorkomen dat Googlebot een pagina crawlt, voorkomen dat Googlebot een pagina indexeert en voorkomen dat een pagina toegankelijk is voor crawlers en gebruikers.

Problemen met spammers en andere user-agents

De IP-adressen die door Googlebot worden gebruikt, worden soms gewijzigd. Googlebot identificeert zichzelf met een user-agent-tekenreeks, maar dit kan worden vervalst. Je kunt de bezoeken van Googlebot het beste achterhalen via een omgekeerde DNS-lookup.

Googlebot en alle betrouwbare zoekmachinebots respecteren de richtlijnen in robots.txt, maar bepaalde nogoodniks en spammers doen dit niet. Meld spam aan Google.

Google heeft verschillende andere user-agents, waaronder Feedfetcher (user-agent Feedfetcher-Google). Aangezien Feedfetcher-verzoeken afkomstig zijn van menselijke gebruikers die de feeds hebben toegevoegd aan hun Google-startpagina, en niet van geautomatiseerde crawlers, volgt Feedfetcher de richtlijnen van robots.txt niet. Je kunt voorkomen dat Feedfetcher je site crawlt door je server zo te configureren dat een 404- of 410-bericht of een ander foutstatusbericht wordt weergegeven voor user-agent Feedfetcher-Google. Meer informatie over Feedfetcher.

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?