Googlebot

Googlebot is de generieke naam van de webcrawler van Google. Googlebot is de algemene naam voor twee verschillende typen crawlers: een desktopcrawler die een gebruiker op een desktopcomputer simuleert en een mobiele crawler die een gebruiker op een mobiel apparaat simuleert.

Je website wordt waarschijnlijk gecrawld door zowel Googlebot Desktop als Googlebot Mobile. Je kunt het subtype van Googlebot identificeren aan de hand van de tekenreeks voor de user-agent in het verzoek. Beide crawlertypen volgen echter dezelfde producttoken (token voor de user-agent) in robots.txt, dus je kunt Googlebot Mobile of Googlebot Desktop niet selectief targeten via robots.txt.

Als je site is geconverteerd naar mobielgerichte indexering op Google, wordt de meerderheid van de Googlebot-crawlverzoeken gedaan met de mobiele crawler en een minderheid met de desktopcrawler. Voor sites die nog niet zijn geconverteerd, worden de meeste crawls uitgevoerd met de desktopcrawler. In beide gevallen crawlt de minderheidscrawler alleen URL's die al zijn gecrawld door de meerderheidscrawler.

 

Hoe Googlebot toegang krijgt tot je site

Voor de meeste sites geldt dat Googlebot niet vaker dan gemiddeld één keer per enkele seconden toegang heeft tot je site. Door vertragingen is het echter mogelijk dat het aantal keren iets hoger ligt binnen een korte periode.

Googlebot is ontworpen om gelijktijdig door duizenden computers te worden uitgevoerd om de prestaties en schaal te verbeteren naarmate internet groter wordt. Daarnaast voeren we veel crawlers uit op computers in de buurt van de sites die ze mogelijk crawlen om het bandbreedtegebruik te beperken. Daarom kunnen in je logbestanden bezoeken van verschillende computers op google.com worden weergegeven, allemaal met de user-agent Googlebot. Ons doel is per bezoek zo veel mogelijk pagina's van je site te crawlen, zonder de bandbreedte van je server te veel te belasten. Als je site problemen ondervindt met het bijhouden van de crawlverzoeken van Google, kun je een verzoek indienen om de crawlsnelheid te wijzigen.

Googlebot blokkeren voor het bezoeken van je site

Het is bijna onmogelijk een webserver geheim te houden door geen links naar de betreffende webserver te publiceren. Zodra iemand bijvoorbeeld een link van je 'geheime' server volgt naar een andere webserver, kan je 'geheime' URL worden weergegeven in de verwijzingstag en kan deze URL worden opgeslagen en gepubliceerd in het verwijzingslogbestand van de andere webserver. Verder bevat internet veel verouderde en verbroken links. Wanneer iemand een verkeerde link naar je site publiceert of de links niet updatet om wijzigingen in je server te weerspiegelen, probeert Googlebot een verkeerde link van je site te crawlen.

Als je wilt voorkomen dat Googlebot content op je site crawlt, heb je verschillende opties. Houd rekening met het verschil tussen voorkomen dat Googlebot een pagina crawlt, voorkomen dat Googlebot een pagina indexeert en voorkomen dat een pagina toegankelijk is voor crawlers en gebruikers.

Googlebot controleren

Voordat je besluit Googlebot te blokkeren, moet je er rekening mee houden dat de tekenreeks voor de user-agent die door Googlebot wordt gebruikt, vaak wordt vervalst door andere crawlers. Het is belangrijk dat je controleert of een problematisch verzoek daadwerkelijk afkomstig is van Google. De beste manier om te controleren of een verzoek daadwerkelijk afkomstig is van Googlebot, is een omgekeerde DNS-lookup gebruiken voor het bron-IP-adres van het verzoek.

Googlebot en alle betrouwbare zoekmachinebots respecteren de richtlijnen in robots.txt, maar bepaalde nogoodniks en spammers doen dit niet. Google bestrijdt spammers actief. Als je spampagina's of -sites tegenkomt in zoekresultaten van Google, kun je spam melden aan Google.

 

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?