Acerca de robots.txt

Introducción a los archivos robots.txt

Conceptos básicos sobre los archivos robots.txt: qué son y cómo usarlos

¿Qué es un archivo robots.txt?

Un archivo robots.txt proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes; no es un mecanismo para mantener una página web fuera de Google. Si no quieres que una página aparezca en Google, utiliza directivas noindex o protégela con una contraseña.

¿Para qué sirve el archivo robots.txt?

El archivo robots.txt se utiliza sobre todo para gestionar el tráfico de los rastreadores a tu sitio web y, a menudo, para que Google no rastree determinadas páginas, según el tipo de archivo:

Tipo de página Gestión del tráfico Ocultar de Google Descripción
Página web

En el caso de las páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), los archivos robots.txt se pueden usar para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o bien para evitar que se rastreen páginas sin importancia o similares en tu sitio web.

No uses robots.txt para ocultar una página web de los resultados de la Búsqueda de Google, ya que, si otras páginas apuntan a esa página con texto descriptivo, es posible que se indexe aunque no se visite. Si quieres bloquear una página para que no aparezca en los resultados de búsqueda, usa otro método; por ejemplo, protégela con contraseña o utiliza una directiva noindex.

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción y más o menos con este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si la búsqueda de tu página muestra este resultado y quieres corregirlo, elimina la entrada del archivo robots.txt que bloquea la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.

Archivo multimedia

Con archivos robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que los archivos de imagen, vídeo y audio aparezcan en los resultados de la Búsqueda de Google. De todas formas, ten en cuenta que no impedirá que otras páginas o usuarios enlacen a tu archivo de imagen, vídeo o audio.

Archivo de recursos

Con archivos robots.txt, puedes bloquear los archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no afectará de forma significativa a las páginas que se carguen sin dichos recursos. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos; si lo haces, Google no podrá analizar correctamente las páginas que dependan de dichos recursos.

Utilizo servicios de alojamiento de sitios web

Si utilizas un servicio de alojamiento de sitios web como Wix, Drupal o Blogger, es posible que no tengas que editar tu archivo robots.txt directamente; probablemente, tu proveedor tenga una página de configuración de búsqueda o algún otro mecanismo con el que indicar a los buscadores si deben o no rastrear alguna página en concreto.

Si quieres saber si Google ha rastreado tu página, busca la URL en Google.

Para permitir o impedir que los buscadores puedan ver tu página, añade o quita los requisitos de inicio de sesión de la página (si los hubiera) y busca en Google cómo bloquear páginas en tu servicio de alojamiento; por ejemplo, puedes buscar ocultar página de Wix de los buscadores.

Limitaciones de los archivos robots.txt

Antes de crear o editar un archivo robots.txt, debes conocer los límites de este método de bloqueo de URLs. Quizás te interese usar otros mecanismos para que tus URL no se puedan encontrar en la Web.

  • Es posible que las directivas del archivo robots.txt no sean compatibles con algunos buscadores
    Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio web; son los propios rastreadores los que deciden si seguirlas o no. El robot de Google y otros rastreadores web respetables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres proteger la información de los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger los archivos privados con contraseña en el servidor.
  • Cada rastreador interpreta la sintaxis de una forma
    Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web usando la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
  • Las páginas bloqueadas mediante un archivo robots.txt pueden seguir indexándose si hay enlaces a ellas en otros sitios web
    Si bien Google no rastrea ni indexa el contenido que se haya bloqueado con un archivo robots.txt, puede que encontremos e indexemos URL bloqueadas si hay enlaces a ellas en otros sitios web. En consecuencia, tanto estas URL como otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir mostrándose en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos de tu servidor con contraseñas, usa la metaetiqueta o el encabezado de respuesta noindex o simplemente quita la página por completo.
Nota: Al combinar varias indicaciones de rastreo e indexación, es posible que algunas se contrarresten. Para obtener más información sobre cómo configurar estas directivas correctamente, consulta la sección Combinar el rastreo con las directivas de indexación y publicación de la documentación de Google Developers.

Probar los bloqueos de robots.txt de una página

Puedes probar si una página o un recurso han sido bloqueados por una regla de robots.txt.

Si quieres probar las directivas noindex, utiliza la herramienta de inspección de URLs.

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?