Google-crawlers (user-agents)

Bekijken welke robots Google gebruikt om internet te crawlen

'Crawler' is een generieke term voor programma's (zoals een robot of spider) die worden gebruikt om websites automatisch te vinden en te scannen door links van de ene webpagina naar de andere te volgen. De belangrijkste crawler van Google heet Googlebot. In deze tabel wordt informatie over de algemene Google-crawlers weergegeven die je mogelijk ziet in je verwijzingslogbestanden en hoe ze moeten worden opgegeven in robots.txt, de robots-metatags en de X-Robots-Tag HTTP-richtlijnen.

De volgende tabel toont de crawlers die worden gebruikt door verschillende producten en services van Google:

  • De token voor de user-agent wordt gebruikt in de regel User-agent: in robots.txt om overeen te komen met een generiek crawlertype wanneer crawlregels voor je site worden geschreven. Sommige crawlers hebben meer dan één token, zoals weergegeven in de tabel. Er hoeft echter slechts één crawlertoken overeen te komen om een regel toe te passen. Deze lijst is niet volledig, maar bevat de meeste crawlers die je mogelijk ziet op je website.
  • De volledige tekenreeks voor de user-agent is een volledige beschrijving van de crawler. Deze wordt weergegeven in het verzoek en je weblogboeken.
Deze waarden kunnen worden vervalst. Als je wilt controleren of de bezoeker Googlebot is, moet je een omgekeerde DNS-lookup gebruiken.
Crawler Token van user-agent (producttoken) Volledige tekenreeks voor user-agent
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Controleert de advertentiekwaliteit van webpagina's voor Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Controleert de advertentiekwaliteit van webpagina's voor iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Controleert de advertentiekwaliteit van webpagina's voor desktop)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (desktop)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    of (zelden gebruikt):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Verschillende soorten mobiele apparaten) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Controleert de advertentiekwaliteit van Android-app-pagina's. Houdt zich aan de regels voor AdsBot-Google-robots.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Houdt geen rekening met robots.txt-regelsDit is waarom

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Houdt geen rekening met robots.txt-regels. Dit is waarom

  • Huidige user-agent:
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Eerdere user-agent (beëindigd):
    google-speakr

User-agents in robots.txt

Wanneer verschillende user-agents worden herkend in het robots.txt-bestand, volgt Google de meest specifieke. Als je wilt dat alle crawlers van Google je pagina's kunnen crawlen, heb je helemaal geen robots.txt-bestand nodig. Als je alle crawlers van Google wilt blokkeren voor of toegang wilt geven tot bepaalde content, kun je dit doen door Googlebot op te geven als user-agent. Als je bijvoorbeeld al je pagina's wilt weergeven in Google Zoeken en AdSense-advertenties wilt weergeven op je pagina's, heb je geen robots.txt-bestand nodig. Als je bepaalde pagina's helemaal wilt blokkeren voor Google, worden ook alle andere user-agents van Google geblokkeerd als je de user-agent Googlebot blokkeert.

Als je echter gedetailleerdere controle wilt hebben, kun je specifieker te werk gaan. Je wilt bijvoorbeeld dat al je pagina's worden weergegeven in Google Zoeken maar je wilt niet dat de afbeeldingen in je directory 'persoonlijk' worden gecrawld. Gebruik in dit geval robots.txt als volgt om de user-agent Googlebot-image geen toestemming te geven de bestanden in je directory /persoonlijk te crawlen (je staat Googlebot zo toe alle bestanden te crawlen):

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /persoonlijk
Een ander voorbeeld: stel dat je advertenties op al je pagina's wilt weergeven maar dat je die pagina's niet wilt weergeven in Google Zoeken. In dit geval moet je als volgt Googlebot blokkeren en Mediapartners-Google toestaan:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agents in robots-metatags

Sommige pagina's gebruiken meerdere robots-meta-tags om als volgt richtlijnen voor verschillende crawlers op te geven:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In dit geval gebruikt Google een combinatie van de negatieve richtlijnen en volgt Googlebot de richtlijnen noindex en nofollow. Gedetailleerdere informatie over hoe je de manier kunt beheren waarop Google je site crawlt en indexeert.

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?