Cómo bloquear URLs con robots.txt

Información sobre los archivos robots.txt

¿Qué es un archivo robots.txt?

Un archivo robots.txt proporciona información a los rastreadores de buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Se utiliza, principalmente, para evitar que tu sitio web se sobrecargue con solicitudes; no es un mecanismo para mantener una página web fuera de Google. Con las directivas o etiquetas noindex, puedes mantener una página web fuera de Google o proteger tu página con una contraseña.

¿Para qué sirve el archivo robots.txt?

El archivo robots.txt se utiliza principalmente para gestionar el tráfico de rastreadores a tu sitio web y, en ocasiones, para que Google no pase por una página, según el tipo de archivo:

Tipo de página Gestión del tráfico Ocultar de Google Descripción
Página web

En el caso de las páginas web (HTML, PDF u otros formatos no multimedia que Google puede leer), los archivos robots.txt se pueden usar para gestionar el tráfico de rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google o para evitar que se rastreen páginas sin importancia o similares en tu sitio web.

No uses robots.txt para ocultar páginas web de los resultados de la Búsqueda de Google, ya que si otras páginas apuntan a la tuya con texto descriptivo, es posible que se indexe tu página aunque no se visite. Si quieres bloquear tu página para que no aparezca en los resultados de búsqueda, usa un método distinto, como la protección mediante contraseña o una directiva noindex.

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero el resultado no tendrá descripción y tendrá más o menos este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si aparece este resultado de búsqueda de tu página y quieres corregirlo, elimina la entrada del archivo robots.txt que bloquea la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.

Archivo multimedia

Con archivos robots.txt, puedes gestionar el tráfico de rastreadores y evitar que los archivos de imagen, vídeo y audio aparezcan en los resultados de la Búsqueda de Google. De todas formas, ten en cuenta que no impedirá que otras páginas o usuarios enlacen a tu archivo de imagen, vídeo o audio.

Archivo de recursos

Con archivos robots.txt, puedes bloquear los archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no afectará de forma importante a las páginas que se carguen sin dichos recursos. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos; si lo haces, Google no podrá analizar correctamente las páginas que dependan de dichos recursos.

Utilizo servicios de alojamiento de sitios web

Si utilizas un servicio de alojamiento de sitios web como WIX, Drupal o Blogger, es probable que no tengas que editar tu archivo robots.txt directamente. En vez de eso, tu proveedor podría exponer la configuración de una página o algún otro mecanismo para indicar a los buscadores si deben o no rastrearla.

Si quieres saber si Google ha rastreado tu página, busca la URL en Google.

Si quieres ocultar (o mostrar) tu página, añadir (o eliminar) los requisitos de inicio de sesión de la página y buscar en Google instrucciones sobre cómo modificar la visibilidad de tu página en los buscadores de alojamiento de tu sitio web, consulta, por ejemplo: ocultar página wix de los buscadores.

Limitaciones del archivo robots.txt

Antes de crear o editar un archivo robots.txt, debes conocer los límites de este método de bloqueo de URLs. Quizás te interese usar otros mecanismos para que tus URL no se puedan encontrar en la Web.

  • Las instrucciones de robots.txt son solo indicaciones
    Las instrucciones de los archivos robots.txt no pueden forzar el comportamiento de los rastreadores en el sitio, sino que sirven de indicaciones para los rastreadores que acceden a él. Mientras que Googlebot y otros rastreadores web respetables obedecen las instrucciones de un archivo robots.txt, puede que otros rastreadores no lo hagan. Por tanto, si quieres proteger la información de los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger los archivos privados con contraseña en el servidor.
  • Los distintos rastreadores interpretan la sintaxis de varias formas
    Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Por tanto, debes dirigirte a los diferentes rastreadores web usando la sintaxis adecuada, ya que es posible que algunos no entiendan determinadas instrucciones.
  • Las páginas bloqueadas mediante un archivo robots.txt todavía pueden indexarse si hay enlaces a ellas en otros sitios web
    Si bien Google no rastrea ni indexa el contenido que se haya bloqueado con un archivo robots.txt, puede que encontremos e indexemos URL bloqueadas si hay enlaces a ellas en otros sitios web. En consecuencia, tanto estas URL como otra información pública, como el texto de los enlaces que llevan a las páginas en cuestión, pueden seguir mostrándose en los resultados de la Búsqueda de Google. Para evitarlo, protege los archivos de tu servidor con contraseñas, usa la metaetiqueta o el encabezado de respuesta noindex o simplemente retira la página por completo.
Nota: Al combinar varias indicaciones de rastreo e indexación, es posible que algunas se contrarresten. Para obtener más información sobre cómo configurar estas directivas correctamente, consulta la sección Combinar el rastreo con las directivas de indexación o publicación de la documentación de Google Developers.

Probar los bloqueos robots.txt de una página

Puedes probar si una página o un recurso han sido bloqueados por una regla de robots.txt.

Si quieres probar las directivas noindex, utiliza la herramienta de inspección de URLs.

¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?