Descripción general de los rastreadores de Google (user-agents)

Descubre con qué robots rastrea Google la Web

El término "rastreador" se utiliza de forma genérica para hacer referencia a cualquier programa (como un robot o una araña) con el que se detectan y analizan automáticamente sitios web siguiendo enlaces entre páginas web. El rastreador principal de Google se llama robot de Google. En la tabla de este artículo se incluye información sobre los rastreadores habituales de Google que puedes encontrar en tus registros de URL referentes. Además, se indica cómo deben especificarse en el archivo robots.txt, en las metaetiquetas robots y en las directivas HTTP de X-Robots-Tag.

En la tabla se muestran los rastreadores que usan varios productos y servicios de Google:

  • Los valores de la columna Token de user-agent son los que debes incluir en la línea User-agent: del archivo robots.txt para que coincida con el tipo de rastreador en cuestión al escribir las reglas de rastreadores de tu sitio web. Como se muestra en la tabla, algunos rastreadores utilizan más de un token; en estos casos, solo es necesario incluir uno de ellos en una de las reglas aplicables. Esta lista no es exhaustiva, pero incluye la mayoría de los rastreadores que pueden visitar un sitio web.
  • Los valores de la columna Cadena de user-agent completa son descripciones completas de cada rastreador, y son los que aparecen en las solicitudes y en los registros web.
Estos valores se pueden falsificar. Si necesitas comprobar que el visitante sea realmente el robot de Google, utiliza una petición de DNS invertida.
Rastreador Token de user-agent (token de producto) Cadena de user-agent completa
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un dispositivo Android.

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un iPhone.

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en un ordenador.

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (ordenadores)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    o (se utiliza con poca frecuencia):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (smartphones)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(En varios tipos de dispositivos móviles) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Comprueba la calidad de los anuncios ubicados en las páginas web que se muestran en aplicaciones para Android. Sigue las reglas de robots de AdsBot-Google.

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

No sigue las reglas del archivo robots.txt. Averigua por qué.

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

No sigue las reglas del archivo robots.txt. Averigua por qué.

  • User-agent activo:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • User-agent antiguo (obsoleto):
    google-speakr
Duplex on the Web

DuplexWeb-Google

Puede que ignore el comodín * en el campo de user-agent. Averigua por qué.

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

Consigue iconos de página de distintos servicios.

Google Favicon

Ignora las reglas de robots.txt en las solicitudes iniciadas por usuarios.

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

 

 Chrome/W.X.Y.Z en user-agents

Cuando aparece la cadena Chrome/W.X.Y.Z en los user-agents de la tabla, ten en cuenta que W.X.Y.Z es un marcador de posición que se sustituye por la versión del navegador Chrome que usa ese user-agent; por ejemplo, 41.0.2272.96. Este número irá aumentando con el tiempo para reflejar la versión más reciente de Chromium que utiliza el robot de Google.

Si buscas en tus registros o filtras tu servidor por un user-agent que tenga este patrón, te recomendamos que no indiques un número de versión exacto, sino que utilices comodines.

User-agents en archivos robots.txt

Si en un archivo robots.txt se reconocen varios user-agents, Google seguirá el más concreto. Si quieres que todos los rastreadores de Google puedan rastrear tus páginas, no es necesario que añadas ningún archivo robots.txt. Para bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica Googlebot como user-agent. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, para evitar que los rastreadores de Google accedan a algunas páginas, al bloquear Googlebot como user-agent también se bloquearán todos los demás user-agents de Google.

Si lo que quieres es realizar un control más preciso, puedes aplicar una restricción más específica. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google sin que se rastreen imágenes de tu directorio personal, puedes configurar del siguiente modo el archivo robots.txt para evitar que el user-agent Googlebot-Image rastree los archivos de tu directorio /personal (pero permite que Googlebot rastree todos los archivos):

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Veamos otro ejemplo: si quieres que se muestren anuncios en todas tus páginas, pero no quieres que esas páginas aparezcan en la Búsqueda de Google, bloquea Googlebot y permite Mediapartners-Google, tal como se muestra a continuación:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agents en metaetiquetas de robots

En algunas páginas pueden incluirse varias metaetiquetas de robots para indicar directivas a rastreadores distintos, tal como se muestra a continuación:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

En este caso, Google seguirá todas las directivas negativas, por lo que el robot de Google respetará las directivas noindex y nofollow. Más información sobre cómo controlar el modo en que Google rastrea e indexa sitios web

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?