Robot de Google

El robot de Google es el robot de rastreo web de Google (en ocasiones, también denominado "araña"). El rastreo es el proceso mediante el cual el robot de Google descubre páginas nuevas y actualizadas y las añade al índice de Google.

Utilizamos una enorme cantidad de ordenadores para obtener (o "rastrear") miles de millones de páginas de la Web. El robot de Google usa un proceso de rastreo basado en algoritmos: mediante programas informáticos, determina qué sitios web deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que explorar en cada uno de ellos.

Cómo accede el robot de Google a sitios web

De media, el robot de Google no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, a causa de retrasos en la red, es posible que el porcentaje parezca ligeramente superior en períodos cortos de tiempo.

El robot de Google está diseñado para distribuirse en varios equipos con el fin de mejorar el rendimiento y ajustar la escala a medida que la Web se desarrolla. Además, para reducir el uso del ancho de banda, muchos de los rastreadores se ejecutan en equipos ubicados cerca de los sitios web que indexan en la red. Por tanto, es posible que tus registros muestren visitas de varios equipos a la página google.com, en todos los casos con el robot de Google como user-agent. Nuestro objetivo consiste en rastrear el mayor número posible de páginas de tu sitio en cada visita sin colapsar el ancho de banda de tu servidor. Solicita que se modifique la frecuencia de rastreo.

Bloquear el acceso del robot de Google al contenido de tu sitio

Resulta prácticamente imposible no publicar enlaces a un servidor web para mantenerlo en secreto. En el momento en que un usuario utilice un enlace de tu servidor "secreto" para acceder a otro servidor web, tu URL "secreta" podrá mostrarse en la etiqueta de referencia, y el otro servidor web podrá almacenarla y publicarla en su registro de referencia. Además, la Web contiene un gran número de enlaces obsoletos y rotos. Siempre que se publique un enlace incorrecto a tu sitio web o que los enlaces no se actualicen correctamente para reflejar cambios realizados en tu servidor, el robot de Google intentará descargar un enlace incorrecto de tu sitio web.

Tienes varias opciones para evitar que el robot de Google rastree contenido de tu sitio web. Ten en cuenta que hay diferencias entre bloquear el robot de Google para que no rastree una página, evitar que la indexe e impedir que tanto rastreadores como usuarios puedan acceder a una página.

Problemas con spammers y otros agentes de usuario

Las direcciones IP que utiliza el robot de Google varían cada cierto tiempo. El robot de Google se identifica con una cadena de agente de usuario, pero esta cadena puede falsificarse; la mejor forma de identificar los accesos del robot de Google es utilizar una petición de DNS invertida.

El robot de Google, al igual que el resto de los robots de buscador acreditados, respetará las directrices del archivo robots.txt, pero es posible que algunos spammers y otros usuarios malintencionados no las respeten. Informa de spam a Google.

Google también dispone de otros user-agents, como Feedfetcher (user-agent: Feedfetcher-Google). Las solicitudes de Feedfetcher proceden de acciones explícitas realizadas por usuarios que han añadido feeds a la página principal de Google (y no de rastreadores automatizados), por lo que Feedfetcher no sigue las directrices del archivo robots.txt. Para evitar que Feedfetcher rastree tu sitio web, configura tu servidor para que muestre mensajes de estado de error 404 o 410 o de cualquier otro tipo al user-agent Feedfetcher-Google. Más información sobre Feedfetcher

¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?