Robot de Google

El robot de Google es el nombre genérico del rastreador web de Google y engloba dos tipos de rastreadores: el de ordenadores, que simula ser un usuario navegando desde su ordenador, y el de dispositivos móviles, que recrea un usuario en este tipo de dispositivos.

Es probable que ambos tipos de robots de Google rastreen tu sitio web. Si consultas la cadena de agente de usuario de tu solicitud, puedes saber cuál te ha rastreado. Como ambos siguen las reglas del mismo token de producto (el token de agente de usuario) de robots.txt, no puedes elegir de forma exclusiva a uno u otro.

Si tu sitio web está centrado en dispositivos móviles en Google, gran parte de las solicitudes de rastreo se harán a través de rastreadores para estos dispositivos, y solo una minoría a través de rastreadores para ordenadores. Si no es así, la mayoría de los rastreos se harán a través de los rastreadores para ordenadores. En ambos casos, el rastreador minoritario solo rastreará URLs que ya hayan pasado el filtro del rastreador mayoritario.

 

Cómo accede el robot de Google a sitios web

De media, el robot de Google no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, debido a posibles retrasos en la red, puede que este porcentaje aumente ligeramente en algunos momentos.

El robot de Google se ha diseñado para ejecutarse simultáneamente en miles de equipos con el fin de mejorar el rendimiento y ajustar la escala a medida que la Web crece. Además, para reducir el uso del ancho de banda, muchos de los rastreadores que ejecutamos en los equipos se encuentran cerca de los sitios web que es posible que rastreen. Por tanto, es posible que tus registros muestren visitas de varios equipos a la página google.com y que se indique que en todos los casos el agente de usuario es el robot de Google. Nuestro objetivo consiste en rastrear el mayor número posible de páginas de un sitio en cada visita sin colapsar el ancho de banda del servidor. Puedes solicitar un cambio en la frecuencia de rastreo si tu sitio web tiene problemas para soportar todas las solicitudes de rastreo de Google.

Impedir que el robot de Google acceda a sitios web

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto. Por ejemplo, en el momento en que un usuario utilice un enlace de tu servidor "secreto" para acceder a otro servidor web, tu URL "secreta" podrá aparecer en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia. Además, la Web tiene muchos enlaces obsoletos y rotos. Si alguien publica un enlace incorrecto a tu sitio web o los enlaces no se actualizan correctamente para reflejar cambios hechos en tu servidor, el robot de Google intentará rastrear un enlace incorrecto de tu sitio web.

Tienes varias opciones para evitar que el robot de Google rastree contenido de tu sitio web. Ten en cuenta las diferencias que hay entre bloquear el robot de Google para que no rastree una página, evitar que la indexe e impedir que tanto rastreadores como usuarios puedan acceder a una página.

Verificar que se trata del robot de Google

Antes de bloquear el robot de Google, debes tener en cuenta que otros rastreadores suelen falsificar su cadena de agente de usuario, por lo que es importante que te asegures de que una solicitud problemática procede de Google. La mejor forma de verificar que una solicitud proviene realmente de Googlebot es mediante una petición de DNS inversa de la IP de origen de la solicitud.

El robot de Google, al igual que el resto de los robots de buscador acreditados, respetará las directivas del archivo robots.txt, pero es posible que algunos spammers y otros usuarios malintencionados no las respeten. Como parte de nuestra lucha contra los spammers, puedes denunciar spam para avisarnos si encuentras páginas o sitios con contenido fraudulento en los resultados de búsqueda de Google.

 

¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?