Visão geral dos rastreadores do Google (user agents)

Ver quais robôs o Google usa para rastrear a Web

"Rastreador" é um termo genérico para qualquer programa (como um robô ou indexador) usado para detectar e examinar sites automaticamente seguindo links de uma página para outra. O principal rastreador do Google se chama Googlebot. Esta tabela tem informações sobre os rastreadores mais comuns do Google que podem aparecer nos registros de referenciadores e como eles devem ser especificados no robots.txt, nas metatags robots e nas diretivas de HTTP X-Robots-Tag.

A tabela a seguir mostra os rastreadores usados por vários produtos e serviços do Google:

  • O token do user agent é incluído na linha User-agent: do robots.txt ao criar regras de rastreamento do site e corresponde a um tipo de rastreador. Alguns rastreadores têm mais de um token, como mostrado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site.
  • A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação e nos registros da Web.
Esses valores podem ser gerados por spoofing. Caso você precise verificar se o visitante do site é o Googlebot, use a busca DNS inversa.
Rastreador Token do user agent (token do produto) String completa do user agent
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
Google AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

Verifica a qualidade dos anúncios nas páginas da Web no Android.

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Verifica a qualidade dos anúncios nas páginas da Web no iPhone.

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Verifica a qualidade dos anúncios nas páginas da Web em computadores.

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (computadores)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    Outra opção (pouco usada):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (smartphones)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

Vários tipos de dispositivos móveis (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Verifica a qualidade dos anúncios nas páginas da Web em aplicativos Android. Segue as regras de robôs AdsBot-Google.

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Não respeita as regras do robots.txt. Veja os motivos.

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Não respeita as regras do robots.txt. Veja os motivos.

  • User agent atual:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • User agent antigo (uso suspenso):
    google-speakr
Duplex na Web

DuplexWeb-Google

Talvez ignore o caractere curinga * do user-agent. Veja os motivos.

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

Recupera favicons para vários serviços.

Google Favicon

Para solicitações iniciadas pelo usuário, ignora regras do robots.txt.

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

User agents no robots.txt

Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais específico. Se você desejar que o Google seja capaz de rastrear suas páginas, um arquivo robots.txt não será necessário. Se você desejar bloquear ou permitir que todos os rastreadores do Google acessem seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo, se você desejar que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam em suas páginas, um arquivo robots.txt não será necessário. De modo semelhante, se você desejar bloquear algumas páginas do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos os outros user agents do Google.

Se você desejar um controle maior, será possível ser mais específico. Por exemplo, talvez você queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o user agent Googlebot-image rastreie os arquivos no seu /diretório pessoal (enquanto permite que o Googlebot rastreie todos os arquivos) desta forma:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas essas páginas não apareçam na Pesquisa Google. Você bloquearia o Googlebot, mas permitiria o Mediapartners-Google desta forma:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User agents em metatags robots

Algumas páginas usam várias metatags robots para especificar diretivas para diferentes rastreadores desta forma:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Nesse caso, o Google usará a soma das diretivas negativas, e o Googlebot seguirá as diretivas noindex e nofollow. Informações mais detalhadas sobre como controlar o rastreamento e a indexação do seu site pelo Google.

Isso foi útil?
Como podemos melhorá-lo?