El informe "Estadísticas de rastreo" muestra datos sobre el historial de rastreo de Google en tu sitio web. Por ejemplo, cuántas solicitudes se han realizado y cuándo, cuál ha sido la respuesta del servidor y si se han detectado problemas de disponibilidad. Puedes utilizar este informe para ver si Google detecta algún problema al rastrear tu sitio.
Este informe está dirigido a usuarios avanzados. Si tu sitio tiene menos de mil páginas, no hace falta que utilices este informe ni que te preocupes por controlar el rastreo de forma tan detallada.
Abrir el informe "Estadísticas de rastreo"
C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training
Primeros pasos
Debes conocer la siguiente información antes de usar este informe:
- Cómo funciona la Búsqueda de Google
- Temas para usuarios avanzados, como los relacionados con el rastreo, la indexación y los sitemaps
- Varios temas sobre cómo gestionar el acceso a tu sitio, incluido el bloqueo de robots.txt
- Si tienes un sitio grande, con cientos de miles de páginas, consulta esta guía sobre cómo gestionar y solucionar problemas con el presupuesto de rastreo.
Acerca de los datos
- Todas las URLs que se muestran y se cuentan son las URLs reales solicitadas por Google. Los datos no se asignan a las URLs canónicas, tal como se hace en otros informes.
- Si una URL tiene una redirección del lado del servidor, se considera que cada una de las solicitudes de la cadena de redirección es una solicitud independiente. Por lo tanto, si la página 1 redirige a la página 2 y esta a su vez redirige a la página 3, cuando Google solicite la primera, se mostrarán tres solicitudes distintas: la de la página 1 (respuesta 301 o 302), la de la página 2 (respuesta 301 o 302) y la de la página 3 (previsiblemente con una respuesta 200). Recuerda que solo se muestran páginas del dominio en el que estés. Una respuesta de redirección es del tipo de archivo "Otro tipo de archivo". Las redirecciones del lado del cliente no se contabilizan.
- Los rastreos que se intentan hacer pero que al final se descartan porque el archivo robots.txt no estaba disponible también se incluyen en las cifras totales de rastreos. No obstante, es posible que en el informe no se incluyan todos los datos sobre esos intentos. Más información
- Recursos y alcance:
- Todos los datos se limitan al dominio seleccionado. No se mostrarán solicitudes a otros dominios, como las de recursos de página (por ejemplo, imágenes) alojados fuera de esta propiedad. Por lo tanto, si tu página example.com/mipagina incluye la imagen google.com/img.png, la solicitud de google.com/img.png no constará en el informe "Estadísticas de rastreo" de la propiedad example.com.
- Del mismo modo, tampoco se mostrarán las solicitudes a un dominio del mismo nivel, como en.example o de.example. Por lo tanto, si consultas el informe "Estadísticas de rastreo" de en.example, no se muestran las solicitudes de imágenes hechas en de.example.
- Sin embargo, las solicitudes entre subdominios se pueden consultar desde el dominio principal. Por ejemplo, si consultas los datos de example.com, podrás ver todas las solicitudes a example.com, en.example, de.example.com y cualquier otro dominio secundario de un nivel inferior a example.com.
- Por el contrario, si se utilizan recursos de tu propiedad en la página de otro dominio, se pueden mostrar solicitudes de rastreo asociadas a la página donde se alojan, pero no se podrá ver ningún contexto en el que se indique que se está rastreando el recurso, ya que se está usando en la página de otro dominio. Es decir, no verás que la imagen example.com/imagenX.png se ha rastreado porque está incluida en la página anotherexample.com/mipagina.
- Los datos de rastreo incluyen los protocolos http y https, incluso en las propiedades de prefijo de URL, por lo que en el informe "Estadísticas de rastreo" de http://example.com figuran las solicitudes tanto a http://example.com como a https://example.com. Sin embargo, las URLs de ejemplo de las propiedades de prefijo de URL se limitan al protocolo de la propiedad (http o https).
Desplazarse por el informe
El informe muestra la siguiente información de rastreo sobre tu sitio:
Haz clic en cualquier entrada de la tabla para generar una vista detallada de ese elemento, incluida una lista con URLs de ejemplo. Haz clic en una URL para ver información detallada sobre esa solicitud de rastreo. Por ejemplo, en la tabla de las respuestas agrupadas por tipo, haz clic en la fila HTML para ver información agregada sobre todas las páginas HTML rastreadas en tu sitio, detalles como la hora de rastreo, el código de respuesta o el tamaño de respuesta, entre otros.
Hosts y dominios secundarios
Si tu propiedad se encuentra en el nivel del dominio (example.com, http://example.com y https://m.example.com) y contiene dos o más dominios secundarios (como fr.example.com y de.example.com), podrás consultar los datos del nivel superior, que incluyen todos los de los secundarios, o los de un único dominio secundario.
Para ver el informe enfocado a un dominio secundario concreto, en las listas de Hosts de la página de destino del dominio superior, haz clic en el dominio secundario. Solo se mostrarán los 20 dominios secundarios que hayan recibido más tráfico en los últimos 90 días.
URLs de ejemplo
Puedes hacer clic en cualquiera de las entradas de tipos de datos agrupados (respuesta, tipo de archivo, finalidad o tipo de robot de Google) para ver una lista con URLs de ejemplo del tipo que selecciones.
Las URLs de ejemplo no son todas las opciones posibles, sino tan solo una muestra representativa. Si alguna URL no aparece, no significa que no la hayamos solicitado. El número de ejemplos se puede ponderar por día, por lo que puede que algunos tipos de solicitudes tengan más ejemplos que otros. Este proceso debería irse equilibrando con el tiempo.
Total de solicitudes de rastreo
El total de solicitudes que se han hecho para rastrear URLs de tu sitio, tanto si se han acabado rastreando como si no. Incluye las solicitudes de recursos que utiliza la página si hay recursos en tu sitio. No se contabilizan las solicitudes a recursos alojados fuera de tu sitio. Se cuenta cada solicitud enviada a una misma URL. Si el archivo robots.txt no está disponible lo suficiente, también se cuentan los rastreos que se podrían haber hecho.
Estas son algunas de las solicitudes fallidas que se cuentan:
- Solicitudes que no se han llegado a hacer porque el archivo robots.txt no estaba suficientemente disponible
- Solicitudes que no se han podido completar debido a problemas de resolución de DNS
- Solicitudes que no se han podido completar por problemas de conectividad del servidor
- Solicitudes que se han abandonado a causa de bucles de redirección
Tamaño total de la descarga
El número total de bytes descargados de tu sitio en el rastreo durante el periodo especificado. Si Google almacena en caché un recurso de página que se utiliza en varias páginas, este recurso solo se solicita la primera vez (cuando está almacenado en caché).
Tiempo medio de respuesta
El tiempo medio de respuesta de todos los recursos extraídos de tu sitio durante el periodo especificado. Cada recurso enlazado por una página se cuenta como una respuesta independiente.
Estado del host
El estado del host indica si Google ha detectado problemas de disponibilidad al intentar rastrear tu sitio. Pueden indicarse los siguientes estados:
Google no ha encontrado ningún problema de disponibilidad de rastreo en tu sitio durante los últimos 90 días. ¡Buen trabajo! No tienes que hacer nada más.
Google ha detectado al menos un problema significativo de disponibilidad de rastreo en los últimos 90 días en tu sitio, pero ocurrió hace más de una semana. Puede que se tratase de un problema temporal o que ya se haya resuelto. Consulta la tabla Respuesta para ver cuál ha sido el problema y saber si debes tomar alguna medida.
Google ha detectado al menos un problema de disponibilidad de rastreo en tu sitio durante la última semana. Como el error se ha producido recientemente, debes intentar determinar si se trata de un problema recurrente. Consulta la tabla Respuesta para ver cuál ha sido el problema y saber si debes tomar alguna medida.
Lo ideal es que el estado del host sea Verde. Si el estado de disponibilidad es rojo, haz clic en él para ver los detalles de disponibilidad de los archivos robots.txt, la resolución de DNS y la conectividad del host.
Información sobre el estado del host
La evaluación del estado de disponibilidad del host está dividida en las siguientes categorías. Si hay errores significativos en alguna categoría, es posible que el estado de disponibilidad sea inferior. Haz clic en una categoría del informe para consultar más información.
Verás un gráfico de datos de rastreo de cada categoría durante un periodo determinado. En el gráfico aparece una línea roja de puntos. Si la métrica estaba por encima de la línea de puntos de esa categoría (por ejemplo, si la resolución de DNS da error en más del 5 % de solicitudes en un día concreto), se considera un problema y el estado reflejará la asiduidad del último problema.
- Información de robots.txt
El gráfico muestra la tasa de errores de las solicitudes de robots.txt durante un rastreo. Google solicita este archivo con frecuencia y, si la solicitud no devuelve un archivo válido (ya sea relleno o vacío) o una respuesta 404 (el archivo no existe), Google ralentizará o dejará de rastrear el sitio hasta que pueda obtener una respuesta de robots.txt aceptable. Consulta la información detallada incluida más abajo. - Resolución de DNS
El gráfico muestra en qué momentos tu servidor DNS no ha reconocido el nombre del host o no ha respondido mientras se hacía el rastreo. Si detectas algún error, ponte en contacto con el registrador para asegurarte de que el sitio esté bien configurado y de que el servidor esté conectado a Internet. - Conectividad del servidor
El gráfico muestra en qué momentos el servidor no ha respondido o no ha proporcionado una respuesta completa cuando se ha solicitado una URL durante el rastreo. Consulta la sección Errores del servidor para saber cómo solucionar estos errores.
A continuación, te ofrecemos una descripción más detallada de las comprobaciones que hace Google de los archivos robots.txt cuando rastrea tu sitio.
No es necesario que tu sitio tenga un archivo robots.txt, pero debe devolver una respuesta correcta (tal como se define más abajo) cuando se le pida este archivo. De lo contrario, es posible que Google deje de rastrear tu sitio.
- Respuestas de robots.txt correctas
- Cualquiera de las siguientes opciones se consideran respuestas correctas:
- HTTP 200 y un archivo robots.txt (el archivo puede ser válido, no válido o estar vacío) Si el archivo tiene errores de sintaxis, la solicitud seguirá considerándose correcta, aunque es posible que Google ignore cualquier regla que tenga un error de sintaxis.
- HTTP 403/404/410 (el archivo no existe). No es necesario que tu sitio tenga un archivo robots.txt.
- Respuestas de robots.txt incorrectas
- HTTP 429/5XX (problema de conexión)
A continuación se explica cómo Google solicita y utiliza archivos robots.txt cuando rastrea un sitio:
- Antes de rastrear tu sitio, Google comprueba si ha habido alguna solicitud del archivo robots.txt con respuesta correcta en las últimas 24 horas.
- Si Google ha recibido una respuesta correcta del archivo robots.txt con menos de 24 horas de antigüedad, utilizará ese archivo robots.txt cuando rastree tu sitio. Recuerda que el error 404 (Página no encontrada) es una respuesta correcta que indica que no hay ningún archivo robots.txt, por lo que Google puede rastrear todas las URLs del sitio.
- Si la última respuesta fue incorrecta o tiene más de 24 horas de antigüedad, Google volverá a solicitar el archivo robots.txt:
- Si la solicitud se completa correctamente, el rastreo puede comenzar.
- Si no se resuelve correctamente:
- Durante las primeras 12 horas, Google dejará de rastrear tu sitio, pero seguirá solicitando tu archivo robots.txt.
- A partir de esas 12 horas y hasta los 30 días siguientes, Google usará el último archivo robots.txt que pudo obtener, pero seguirá solicitando el archivo robots.txt más reciente.
- Al cabo de 30 días:
- Si la página principal del sitio está disponible, Google actuará como si no hubiera ningún archivo robots.txt y rastreará el sitio sin restricciones.
- Si la página principal del sitio no está disponible, Google dejará de rastrearlo.
- En cualquier caso, Google seguirá solicitando periódicamente tu archivo robots.txt.
Respuestas del rastreo
En esta tabla se muestran las respuestas que Google ha recibido al rastrear tu sitio, agrupadas por tipo de respuesta y como un porcentaje de todas las respuestas del rastreo. Los datos se basan en el total de solicitudes, no en el de URLs. Por lo tanto, si Google solicita dos veces una URL y la primera vez obtiene la respuesta "Error del servidor (500)", pero la segunda vez obtiene "Proceso correcto (200)", sería un 50 % por cada respuesta.
A continuación se indican algunos códigos de respuesta habituales y cómo gestionarlos:
Códigos de respuesta correcta
Estas páginas son correctas y no causan ningún problema.
- Proceso correcto (200): en circunstancias normales, la gran mayoría de las respuestas deben ser de este tipo.
- Movido permanentemente (301): la página devuelve una respuesta HTTP 301 o 308 (movido permanentemente), que es probablemente lo que querías.
- Movido temporalmente (302): la página devuelve una respuesta HTTP 302 o 307 (movido temporalmente), que es probablemente lo que querías. Si esta página ha cambiado de ubicación de forma definitiva, cambia su valor a 301.
- Movido (otro): se trata de una actualización mediante meta refresh.
- No se ha modificado (304): la página no ha cambiado desde la última solicitud de rastreo.
Posibles códigos de respuesta correcta
Estas respuestas pueden ser correctas, pero asegúrate de que era tu intención que fueran así.
- Los errores del tipo No se ha encontrado (404) pueden deberse a enlaces rotos dentro o fuera de tu sitio. No es posible, no merece la pena y ni siquiera es preferible corregir todos los errores 404 del sitio. A menudo devolver este error es lo correcto; por ejemplo, si realmente se ha retirado una página. Consulta si debes solucionar errores 404 y cómo hacerlo.
Códigos de respuesta incorrecta
Debes corregir las páginas que devuelven estos errores para mejorar el rastreo.
- El archivo robots.txt no está disponible: si este archivo tampoco está disponible el siguiente día, Google dejará de rastrearlo durante un tiempo hasta que pueda recibir una respuesta correcta a una solicitud de archivo robots.txt. No encubras el archivo robots.txt a Google ni modifiques la página del archivo según el user-agent.
Esta respuesta no es lo mismo que una respuesta "No se ha encontrado (404)", ya que esta última se considera correcta. Consulta información detallada sobre archivos robots.txt. - Sin autorización (401/407): debes bloquear estas páginas para que no se rastreen con un archivo robots.txt o decidir si deben desbloquearse. Si estas páginas no tienen datos seguros y quieres que se rastreen, puedes pasar la información a páginas no seguras o permitir que el robot de Google acceda sin tener que iniciar sesión. Ten en cuenta que el robot de Google se puede falsificar, por lo que la página será menos segura si permites que el robot de Google acceda.
- Error del servidor (5XX): estos errores hacen que aparezcan advertencias de disponibilidad y se deben corregir si es posible. El gráfico de las miniaturas muestra aproximadamente cuándo se han producido estos errores; haz clic en ellas para ver más detalles y la hora exacta. Decide si se trata de problemas transitorios o si representan errores de disponibilidad más exhaustivos de tu sitio. Si Google rastrea tu sitio con demasiada asiduidad, puedes solicitar una frecuencia de rastreo más baja. Si se trata de un problema de disponibilidad grave, consulta información sobre los picos de rastreo. Consulta la sección Errores del servidor para saber cómo solucionar estos errores.
- Otro error de cliente (4XX): otro error 4XX del cliente que no se menciona en este artículo. Lo ideal es corregir estos problemas.
- El DNS no responde: el servidor DNS no responde a las solicitudes de URLs de tu sitio.
- Error de DNS: otro error de DNS no especificado.
- Error de obtención: no se ha podido obtener la página porque la dirección IP o el número de puerto es incorrecto o debido a una respuesta que no se puede analizar.
- No se ha podido acceder a la página: se produjo cualquier otro error al obtener la página y la solicitud nunca llegó al servidor. Como estas solicitudes no llegaron al servidor, no aparecerán en tus registros.
- El tiempo de espera de la página se ha agotado: se ha agotado el tiempo de espera de la solicitud de la página.
- Error de redirección: se trata de un error de redirección de solicitudes; por ejemplo, puede deberse a que hay demasiadas redirecciones, redirecciones vacías o redirecciones circulares.
- Otro error: otro error que no encaja en ninguna de las categorías anteriores.
Tipos de archivos rastreados
El tipo de archivo devuelto por la solicitud. El valor de porcentaje de cada tipo es el porcentaje de respuestas de ese tipo, no el porcentaje de bytes obtenido de ese tipo.
Posibles valores de tipo de archivo:
- HTML
- Imagen
- Vídeo: uno de los formatos de vídeo admitidos
- JavaScript
- CSS
- Otro XML: un archivo XML que no incluye RSS, KML ni ningún otro formato basado en XML
- JSON
- Distribución: un feed RSS o Atom
- Audio
- Datos geográficos: KML u otros datos geográficos
- Otro tipo de archivo: otro tipo que no se menciona en este artículo Las redirecciones se incluyen en esta agrupación.
- Desconocido (solicitudes con errores): si la solicitud falla, no se conoce el tipo de archivo
Objetivo del rastreo
- Descubrimiento: Google nunca ha rastreado la URL solicitada.
- Actualización: se vuelve a rastrear una página conocida.
Si tienes páginas que cambian habitualmente y no se vuelven a rastrear con la suficiente frecuencia, comprueba que estén incluidas en un sitemap. En el caso de las páginas que se actualizan con menos rapidez, es posible que tengas que volver a solicitar un rastreo. Si has añadido mucho contenido nuevo o has enviado un sitemap recientemente, es probable que observes un aumento en los rastreos de descubrimiento que se hacen en tu sitio.
Tipo de robot de Google
El tipo de user-agent empleado para hacer la solicitud de rastreo. Google cuenta con varios user-agents que hacen rastreos por diferentes motivos y que tienen comportamientos distintos.
Posibles valores de tipo de robot de Google:
- Smartphone: robot de Google para smartphones
- Ordenador: robot de Google para ordenadores
- Imagen: robot de Google para imágenes. Si la imagen se carga como un recurso de página, el tipo del robot de Google se registra como Carga de recursos de la página, no como Imagen.
- Vídeo: robot de Google para vídeos. Si el vídeo se carga como un recurso de página, el tipo del robot de Google se registra como Carga de recursos de la página, no como Vídeo.
- Carga de recursos de la página: una búsqueda secundaria de los recursos que utiliza tu página. Cuando Google rastrea la página, obtiene recursos vinculados importantes, como imágenes o archivos CSS, para renderizarla antes de indexarla. Este es el user-agent que hace estas solicitudes de recursos.
- AdsBot: uno de los rastreadores de AdsBot. Si notas que hay más solicitudes de este tipo, es probable que se deba a que recientemente hayas fijado en tu sitio bastantes objetivos nuevos para los anuncios dinámicos de búsqueda. Consulta la sección ¿Por qué ha aumentado la frecuencia de rastreo de mi sitio? AdsBot rastrea URLs cada dos semanas aproximadamente.
- StoreBot: el rastreador de compra de productos.
- Otro tipo de agente: otro rastreador de Google que no se menciona en este artículo.
Si se producen picos de rastreo, comprueba el tipo de user-agent. Si los picos se deben al rastreador de AdsBot, consulta la sección ¿Por qué ha aumentado la frecuencia de rastreo de mi sitio?.
Solucionar problemas
Frecuencia de rastreo demasiado alta
El robot de Google tiene algoritmos para no sobrecargar tu sitio durante el rastreo. No obstante, puedes limitar la frecuencia de rastreo si necesitas hacerlo por algún motivo.
¿Por qué ha aumentado la frecuencia de rastreo de mi sitio?
Si añades mucha información nueva a tu sitio o la que contiene es muy útil, es posible que lo rastreemos con una frecuencia un poco más alta que la que indicas. Por ejemplo:
- Has desbloqueado el rastreo de una gran sección de tu sitio.
- Has añadido una sección nueva muy grande a tu sitio.
- Has incluido un gran número de objetivos nuevos para anuncios dinámicos de búsqueda añadiendo nuevos feeds de páginas o reglas de URL_Equals.
Si tu sitio se rastrea con tanta frecuencia que tiene problemas de disponibilidad, puedes protegerlo siguiendo estos pasos:
- Averigua qué rastreador de Google está causando el problema. Consulta los registros de tu sitio web o utiliza el informe Estadísticas de rastreo.
- Para resolver el problema de inmediato con una solución a corto plazo, haz lo siguiente:
- Si buscas una solución sencilla, bloquea con el archivo robots.txt el user-agent que esté sobrecargando tu sitio (el robot de Google, adsbot, etc.). No obstante, esta solución puede tardar hasta un día en aplicarse. Te recomendamos que no mantengas este bloqueo durante demasiado tiempo, ya que puede afectar al rastreo de tu sitio a largo plazo.
- Si puedes detectar y responder a los aumentos de carga de forma dinámica, devuelve respuestas HTTP 503 o 429 cuando tu servidor se acerque a su límite. Te recomendamos que no devuelvas ninguna de esas respuestas durante más de dos o tres días, porque Google se lo puede tomar como una señal de que debe rastrear tu sitio con menos frecuencia a largo plazo.
- Dos o tres días después, cuando la frecuencia de rastreo de Google se haya adaptado, puedes quitar los bloqueos de robots.txt o dejar de devolver códigos de error 503 o 429.
- Si recibes demasiados rastreos de AdsBot, puede que sea porque has creado demasiados objetivos para los anuncios dinámicos de búsqueda de tu sitio web mediante
URL_Equals
o feeds de páginas. Si tu servidor no tiene la capacidad necesaria para gestionar estos rastreos, debes limitar los objetivos de anuncios, añadir URLs en lotes pequeños o aumentar la capacidad de tu servidor. Ten en cuenta que AdsBot rastreará tus páginas cada dos semanas, por lo que deberás solucionar el problema o volverá a ocurrir.
La frecuencia de rastreo parece demasiado baja
No puedes indicar a Google que aumente la frecuencia de rastreo. Sin embargo, puedes obtener más información sobre cómo gestionar el rastreo de sitios muy grandes o que se actualizan con mucha frecuencia.
En el caso de los sitios web pequeños o medianos, si descubres que Google no los está rastreando enteros, prueba a actualizar los sitemaps de tu sitio web y comprueba que no estás bloqueando ninguna página.
¿Por qué se ha reducido la frecuencia de rastreo de mi sitio?
En general, tu frecuencia de rastreo de Google debería permanecer relativamente estable durante un periodo de entre una y dos semanas. A continuación se exponen algunos motivos que explican un descenso repentino:
- Has añadido una regla de robots.txt nueva (o muy genérica). Asegúrate de que solo estés bloqueando los recursos necesarios. Si Google necesita recursos específicos para interpretar el contenido, como CSS o JavaScript, comprueba que no hayas bloqueado su acceso al robot de Google.
- Si tu sitio tarda en responder a las solicitudes, el robot de Google reducirá el volumen de estas para evitar que se produzca una sobrecarga en el servidor. Consulta el informe "Estadísticas de rastreo" para averiguar si tu sitio web tarda más de lo habitual en responder.
- Si la tasa de errores del servidor aumenta, el robot de Google reducirá el volumen de solicitudes para evitar que se produzca una sobrecarga.
- Si un sitio contiene información de baja calidad o que cambia con menor frecuencia, es posible que no lo rastreemos tan a menudo. Evalúa tu sitio con franqueza, pide opiniones neutrales a personas que no estén asociadas a él y reflexiona sobre las formas y los aspectos generales en que se podría mejorar.
Las cifras totales de rastreos de este informe son mucho más altas que lo que figura en los registros del servidor de tu sitio
Si el total de rastreos de este informe es mucho mayor que el número de solicitudes de rastreo de Google que figura en los registros de tu servidor, es posible que se deba a que Google no puede rastrear tu sitio porque el archivo robots.txt no ha estado disponible durante demasiado tiempo. En estos casos, Google cuenta los rastreos que podría haber hecho si el archivo robots.txt hubiera estado disponible, pero en realidad no los hace. Para saber si el problema es ese, comprueba el estado de obtención de robots.txt.