Rastreadores de Google (user-agents)

Ver con qué robots rastrea Google la Web

El término "rastreador" se utiliza de forma genérica para hacer referencia a cualquier programa (como un robot o una araña) que sirve para detectar y analizar automáticamente sitios web siguiendo enlaces entre páginas web. El rastreador principal de Google se llama robot de Google. En esta tabla se incluye información sobre los rastreadores habituales de Google que puedes encontrar en tus registros de URLs de referencia y sobre cómo deben especificarse en el archivo robots.txt, en las metaetiquetas robots y en las directivas HTTP X-Robots-Tag.

La tabla que se encuentra más abajo muestra los rastreadores que usan varios productos y servicios de Google:

  • Los valores de la columna Token de user-agent se usa en la línea User-agent: del archivo robots.txt para que coincida con el tipo de rastreador al escribir las reglas de rastreadores definidas en tu sitio web. Como se muestra en la tabla, algunos rastreadores utilizan más de un token; en estos casos, solo es necesario incluir uno de ellos en una de las normas aplicables. Esta lista no es exhaustiva, pero incluye la mayoría de los rastreadores que pueden visitar un sitio web.
  • Los valores de la columna Cadena de user-agent completa son descripciones extensas de cada rastreador, y aparecen en las solicitudes y en tus registros web.
Estos valores se pueden falsificar. Si necesitas verificar que el visitante es el robot de Google, debes usar una petición de DNS invertida.
Rastreador Token de user-agent (token de producto) Cadena de user-agent completa
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot para Web móvil en Android

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un dispositivo Android.

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot para Web móvil

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un iPhone.

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un ordenador.

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Robot de Google para Imágenes
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Robot de Google para Noticias
  • Googlebot-News
  • Googlebot
Googlebot-News
Robot de Google para Vídeo
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Robot de Google (ordenadores)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    o bien (se utiliza con poca frecuencia)
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Robot de Google (smartphones)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense para dispositivos móviles

Mediapartners-Google

(En varios tipos de dispositivos móviles) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Aplicaciones móviles para Android

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en aplicaciones para Android. Sigue las reglas de robots de AdsBot-Google.

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

No sigue las directivas del archivo robots.txt. Te explicamos los motivos

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

No sigue las directivas del archivo robots.txt. Te explicamos los motivos

  • User-agent actual:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • User-agent antiguo (no disponible):
    google-speakr
Duplex en la Web

DuplexWeb-Google

Puede ignorar el comodín * user-agent. Te explicamos los motivos

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Icono de página de Google

(Consigue iconos de página de distintos servicios)

Google Favicon

En las solicitudes iniciadas por el usuario, ignora las reglas de robots.txt

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

User-agents en archivos robots.txt

Si en un archivo robots.txt se reconocen varios user-agents, Google seguirá los más concretos. Si quieres que todos los rastreadores de Google puedan rastrear tus páginas, no es necesario que añadas ningún archivo robots.txt. Para bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica Googlebot como user-agent. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, para evitar que los rastreadores de Google accedan a algunas páginas, al bloquear Googlebot como user-agent también se bloquearán todos los demás user-agents de Google.

Si lo que quieres es realizar un control más preciso, puedes aplicar una restricción más específica. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google sin que se rastreen imágenes de tu directorio personal, puedes configurar del siguiente modo el archivo robots.txt para evitar que el user-agent Googlebot-Image rastree los archivos de tu directorio /personal (pero permitir que Googlebot rastree todos los archivos):

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Veamos otro ejemplo: si quieres que se muestren anuncios en todas tus páginas, pero no quieres que esas páginas aparezcan en la Búsqueda de Google, bloquea Googlebot y permite Mediapartners-Google, tal como se muestra a continuación:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agents en etiquetas meta de robots

En algunas páginas pueden incluirse varias etiquetas meta de "robots" para indicar directivas a rastreadores distintos, tal como se muestra a continuación:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

En ese caso, Google utilizará la suma de las directivas negativas, y el robot de Google seguirá las directivas noindex y nofollow. Más información sobre cómo controlar el modo en que Google rastrea e indexa tu sitio web

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?