​Informe de robots.txt

Comprobar si Google puede procesar los archivos robots.txt

El informe de robots.txt muestra qué archivos robots.txt ha encontrado Google para los 20 hosts principales de tu sitio, la última vez que se rastrearon y las advertencias o errores que se hayan detectado. El informe también te permite solicitar que se vuelva a rastrear un archivo robots.txt en caso de emergencia.

Un archivo robots.txt se utiliza para evitar que los buscadores rastreen tu sitio. Con la etiqueta noindex puedes impedir que determinado contenido aparezca en los resultados de búsqueda.

Este informe solo está disponible para las propiedades a nivel de dominio. Es decir, puede ser uno de los siguientes tipos de propiedad:

  • Una propiedad de dominio (como example.com o m.example.com).
  • Una propiedad de prefijo de URL sin ruta, como https://example.com/, pero no https://example.com/ruta/.

Abrir informe de robots.txt

 

Consultar los archivos robots.txt y el estado del rastreo

En una propiedad de dominio, el informe incluye archivos robots.txt de los 20 hosts principales de esa propiedad.

Para cada archivo robots.txt que haya comprobado Search Console, podrás ver la siguiente información:

  • Ruta del archivo: la URL completa en la que Google ha comprobado la presencia de un archivo robots.txt. En el informe aparecerá una URL solo si tiene el estado "Obtenido" o "No obtenido" en cualquier momento de los últimos 30 días. Consulta la sección Ubicación de los archivos robots.txt.
  • Estado de obtención: estado de la última solicitud de obtención de este archivo. Puede tener los siguientes valores:
    • No obtenido (no se ha encontrado (404)): se ha producido un error 404 (el archivo no existe) al solicitar el archivo. Si has publicado un archivo robots.txt en la URL indicada, pero aparece este error, prueba a inspeccionar la URL para ver si hay problemas de disponibilidad. Un archivo que tenga el estado No se ha encontrado (404) durante 30 días dejará de aparecer en el informe (aunque Google seguirá comprobándolo en segundo plano). Si no aparece ningún error, quiere decir que Google puede rastrear todas las URLs de tu sitio. No obstante, para obtener todos los detalles al respecto, consulta cómo se comporta Google cuando se produce un error de robots.txt.
    • No obtenido (cualquier otro motivo): se ha producido otro problema al solicitar este archivo. Consulta la lista de problemas de indexación.
    • Obtenido: el último intento de rastreo ha devuelto correctamente un archivo robots.txt. Si se detecta algún problema al analizar el archivo, aparecerá en la columna Incidencias. Google ignora las líneas con incidencias y utiliza las que puede analizar.
  • Fecha de comprobación: la última vez que Google intentó rastrear esta URL, en hora local.
  • Tamaño: el tamaño del archivo obtenido, en bytes. Si se ha producido un error en el último intento de obtención, este campo estará vacío.
  • Incidencias: en la tabla se muestra el número de problemas de análisis del contenido del archivo la última vez que se obtuvo. Los errores impiden que se use una regla. Las advertencias no impiden que se use una regla. Consulta cómo se comporta Google cuando se produce un error de robots.txt. Para solucionar problemas de análisis, usa un validador de robots.txt.

Ver la última versión obtenida

Para ver la última versión obtenida de un archivo robots.txt, haz clic en el archivo en la lista de archivos del informe. Si el archivo robots.txt contiene errores o advertencias, aparecerán destacados en el contenido del archivo. Puedes desplazarte por los errores y las advertencias con las teclas de flecha.

Ver versiones obtenidas anteriormente

Para ver las solicitudes de obtención de un archivo robots.txt determinado en los últimos 30 días, ve a la lista de archivos del informe y haz clic en él. A continuación, haz clic en Versiones. Para ver el contenido del archivo en una versión concreta, haz clic en esa versión. Solo se incluye una solicitud en el historial si el archivo o resultado obtenidos son distintos de los de la solicitud de obtención de archivos anterior.

Si Google ha detectado un error de obtención en el último intento, utilizará la última versión obtenida correctamente sin errores durante un máximo de 30 días.

Solicitar un nuevo rastreo

Puedes solicitar que se vuelva a rastrear un archivo robots.txt cuando corriges un error o haces un cambio importante.

Cuándo solicitar un nuevo rastreo

Por lo general, no tienes que solicitar que se vuelva a rastrear un archivo robots.txt, ya que Google lo hace con frecuencia. No obstante, te recomendamos que solicites un nuevo rastreo del archivo robots.txt en los siguientes casos:

  • Si has cambiado las reglas del archivo robots.txt para desbloquear algunas URLs importantes y quieres informar a Google rápidamente (ten en cuenta que esto no garantiza que se vuelvan a rastrear inmediatamente las URLs desbloqueadas).
  • Si has corregido un error de obtención u otro error crítico.

Cómo solicitar un nuevo rastreo

Para solicitar un nuevo rastreo, selecciona el icono de los ajustes adicionales situado junto a un archivo de la lista de archivos robots.txt y haz clic en Solicitar un nuevo rastreo.

Sitios web en servicios de alojamiento de sitios web

Si tu sitio web está alojado en un servicio de alojamiento, puede que no sea fácil editar tu archivo robots.txt. En ese caso, consulta la documentación del alojamiento de tu sitio sobre cómo impedir que Google rastree o indexe páginas concretas. (A la mayoría de los usuarios les preocupa más evitar que los archivos aparezcan en la Búsqueda de Google en lugar de que Google los rastree. Si a ti también te preocupa, busca información en tu servicio de alojamiento sobre cómo bloquear páginas en los buscadores).

Qué ocurre cuando Google no puede obtener ni leer el archivo robots.txt

Si no se encuentra un archivo robots.txt en un dominio o subdominio, Google presupone que puede rastrear cualquier URL de ese host.

Si Google encuentra un archivo robots.txt, pero no puede obtenerlo, sigue este comportamiento:

  1. Durante las primeras 12 horas, Google deja de rastrear el sitio, pero sigue intentando obtener el archivo robots.txt.
  2. Si Google no puede obtener una nueva versión, durante los próximos 30 días utilizará la última versión que funcione correctamente mientras intenta obtener una nueva versión. Puedes consultar la última versión que funciona correctamente en el historial de versiones.
  3. Si los errores no se han solucionado al cabo de 30 días, puede ocurrir lo siguiente:
    • Si el sitio está disponible de forma general para Google, Google se comportará como si no hubiera ningún archivo robots.txt (sin dejar de buscar una nueva versión).
    • Si el sitio tiene problemas de disponibilidad general, Google dejará de rastrearlo, aunque seguirá solicitando periódicamente un archivo robots.txt.

Si Google encuentra y obtiene un archivo robots.txt, leerá el archivo línea por línea. Si una línea contiene un error o no se puede analizar como una regla de robots.txt, la saltará. Si no hay líneas válidas en el archivo, Google lo tratará como un archivo robots.txt vacío, lo que significa que no se declara ninguna regla para el sitio.

Ubicación de los archivos robots.txt

Terminología:

  • Un protocolo, también denominado esquema, es HTTP o HTTPS.
  • Un host es todo lo que hay en la URL después del protocolo (http:// o https://) hasta la ruta. Por lo tanto, el host m.de.example.com implica 3 posibles hosts: m.de.example.com, de.example.com y example.com, cada uno de los cuales puede tener su propio archivo robots.txt.
  • Un origen es el protocolo más el host. Por ejemplo, https://example.com/ o https://m.example.co.es/.

Según el estándar RFC 9309, el archivo robots.txt debe estar en la raíz de cada combinación de protocolo y host de tu sitio.

En una propiedad de dominio, ocurre lo siguiente:

  1. Search Console elige los 20 hosts principales, ordenados por frecuencia de rastreo. Por cada dominio, el informe puede mostrar hasta 2 orígenes, lo que significa que la tabla puede mostrar hasta 40 filas. Si no encuentras la URL del archivo robots.txt de uno de tus hosts, crea una propiedad de dominio del subdominio que falta.
  2. Para cada host, Search Console comprueba dos URLs:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Si el archivo robots.txt de la URL solicitada tiene el estado No se ha encontrado durante 30 días, Search Console no muestra la URL en el informe, aunque Google seguirá comprobando la URL en segundo plano. En el caso de los demás resultados, el informe muestra la URL comprobada.

En las propiedades de prefijo de URL a nivel de host (como https://example.com/), Search Console solo comprueba un único origen. Es decir, en el caso de la propiedad https://example.com, Search Console solo comprueba https://example.com/robots.txt, no http://example.com/robots.txt o https://m.example.com/robots.txt.

Tareas habituales

Consultar un archivo robots.txt

Para abrir un archivo robots.txt incluido en este informe, haz clic en él en la lista de archivos robots.txt. Para abrir el archivo en el navegador, haz clic en Abrir el archivo robots.txt publicado.

Puedes abrir cualquier archivo robots.txt de la Web desde tu navegador. Consulta la información que se incluye más abajo para saber qué URL visitar.

Dónde encontrar los archivos robots.txt

Un archivo robots.txt se encuentra en la raíz de un protocolo y un dominio. Para determinar la URL, elimina todo lo que haya después del host (y el puerto opcional) en la URL de un archivo y añade "/robots.txt". Puedes visitar el archivo robots.txt en tu navegador, si lo hay. Los subdominios o dominios superiores no heredan los archivos robots.txt, y una página determinada puede verse afectada solo por un archivo robots.txt. Algunos ejemplos:

URL del archivo URL del archivo robots.txt que puede afectar al archivo
http://example.com/inicio http://example.com/robots.txt
https://m.de.example.com/una/página/aquí/mipagina https://m.de.example.com/robots.txt
https://example.com?pageid=234#miancla https://example.com/robots.txt
https://images.example.com/flores/narcisos.png https://images.example.com/robots.txt

Ver qué archivo robots.txt afecta a una página o imagen

Para buscar la URL del archivo robots.txt que afecta a una página o imagen, sigue estos pasos:

  1. Busca la URL exacta de la página o de la imagen. En el caso de una imagen, en el navegador Google Chrome, haz clic con el botón derecho y selecciona Copiar URL de imagen.
  2. Quita el final de la URL después del dominio de nivel superior (por ejemplo, .com, .org, .co.il, etc.) y añade /robots.txt al final. Por lo tanto, el archivo robots.txt de https://images.example.com/flores/narciso.png es https://images.example.com/robots.txt.
  3. Abre la URL en el navegador para confirmar que existe. Si el navegador no puede abrir el archivo, significa que no existe.

Comprobar si Google está bloqueado por un archivo robots.txt

Más información

¿Te ha resultado útil esta información?

¿Cómo podemos mejorar esta página?
Búsqueda
Borrar búsqueda
Cerrar búsqueda
Aplicaciones de Google
Menú principal