Robot de Google

El robot de Google es el nombre genérico de los dos tipos de rastreadores web de Google:

Robot de Google para ordenadores: se trata de un rastreador para ordenadores que simula un usuario en un ordenador.
Robot de Google para smartphones: se trata de un rastreador para móviles que simula un usuario en un dispositivo móvil.

Puedes saber cuál te ha rastreado consultando la cadena de user-agent de la solicitud. Como ambos rastreadores siguen las reglas del mismo token de producto (token de user-agent) de robots.txt, no puedes elegir de forma exclusiva a uno u otro en tu archivo robots.txt.

En la mayoría de los sitios, Google indexa principalmente la versión para móviles del contenido. Por tanto, la mayor parte de las solicitudes de rastreo del robot de Google se harán a través del rastreador para móviles, y solo una parte muy pequeña provendrá del rastreador para ordenadores.

Cómo accede el robot de Google a los sitios

En la mayoría de los casos, de media el robot de Google no debería acceder a tu sitio más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, puede que esta frecuencia de rastreo aumente ligeramente durante breves periodos.

El robot de Google está diseñado para ejecutarse simultáneamente en miles de ordenadores porque así es más eficiente y se puede adaptar al crecimiento de la Web. Además, para consumir menos ancho de banda, muchos de los rastreadores se ejecutan en ordenadores que están cerca de los sitios que tienen posibilidades de rastrear. Por lo tanto, tus registros pueden mostrar visitas de varias direcciones IP, todas con el user-agent del robot de Google. En cada visita, se intentan rastrear tantas páginas de tu sitio como permita el servidor. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.

El robot de Google rastrea contenido principalmente desde direcciones IP en Estados Unidos. Si el robot de Google detecta que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países. La lista de direcciones IP que utiliza el robot de Google para detectar dichos bloqueos está disponible en formato JSON.

El robot de Google rastrea contenido con HTTP/1.1 y, si el sitio lo admite, con HTTP/2. No hay ninguna ventaja de posicionamiento en función de la versión del protocolo que se utiliza para rastrear tu sitio. Sin embargo, el rastreo mediante HTTP/2 puede ahorrar recursos informáticos (como la CPU o la RAM) en tu sitio y en el robot de Google.
Si no quieres que tu sitio se rastree con HTTP/2, indica al servidor donde se aloja que, cuando el robot de Google intente rastrear el sitio con HTTP/2, responda con un código de estado HTTP 421. Si no puedes hacerlo, envía un mensaje al equipo del robot de Google (aunque esta solución es temporal).

El robot de Google puede rastrear los primeros 15 MB de archivos HTML o de archivos de texto compatibles. Cada recurso al que se hace referencia en el HTML, como CSS y JavaScript, se obtiene por separado, y cada obtención está sujeta al mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, el robot de Google deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como el robot de Google para vídeos y el robot de Google para imágenes, tengan límites diferentes.

Impedir que el robot de Google acceda a un sitio

Resulta prácticamente imposible mantener un servidor web en secreto limitándote a no publicar ningún enlace que lleve a él. Por ejemplo, en cuanto un usuario siga un enlace de tu servidor "secreto" a otro servidor web, es posible que tu URL "secreta" aparezca en la etiqueta referente, por lo que el otro servidor web podría almacenarla y publicarla en su registro de referentes. Además, en la Web hay muchos enlaces obsoletos y rotos. Si alguien publica un enlace incorrecto a tu sitio o no actualiza otros enlaces para reflejar cambios que hayas hecho en tu servidor, el robot de Google intentará rastrear un enlace incorrecto de tu sitio.

Si no quieres que el robot de Google rastree contenido de tu sitio, tienes varias opciones. Recuerda que no es lo mismo impedir que el robot de Google rastree una página, que evitar que la indexe o que impedir que tanto rastreadores como usuarios puedan acceder a ella.

Comprobar que sea el robot de Google

Hay rastreadores que falsifican la cadena de user-agent del robot de Google, por lo que, antes de bloquearlo, comprueba que las solicitudes problemáticas que detectes de verdad procedan de Google. La mejor forma de hacerlo es mediante una petición de DNS invertida de la IP de origen de la solicitud o comparando la IP de origen con los intervalos de IP del robot de Google.