Cómo bloquear URLs con robots.txt

Información sobre los archivos robots.txt

Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador).

Un archivo robots.txt solo es necesario si el sitio incluye contenido que no quieres que Google ni otros motores de búsqueda indexen.

Para comprobar cuáles son las URL a las que Google puede acceder o no de tu sitio web, prueba a utilizar la herramienta Probador de robots.txt.

Limitaciones de los robots.txt

Antes de crear un archivo robots.txt, deberías saber qué riesgos conlleva este método de bloqueo de las URL. Es posible que en algún momento quieras utilizar otros mecanismos para garantizar que tus URL no se pueden encontrar en la Web.

  • Las instrucciones de robots.txt son solo indicaciones

    Las instrucciones de los archivos robots.txt no pueden forzar el comportamiento de los rastreadores en el sitio, sino que sirven de indicaciones para los rastreadores que acceden a él. Mientras que Googlebot y otros rastreadores web respetables obedecen las instrucciones de un archivo robots.txt, puede que otros rastreadores no lo hagan. Por lo tanto, si quieres proteger la información de los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger los archivos privados con contraseña en el servidor.
  • Los distintos rastreadores interpretan la sintaxis de varias formas

    Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Debes conocer la sintaxis adecuada para dirigirte a los diferentes rastreadores web, ya que puede que algunos no entiendan determinadas instrucciones.
  • Las indicaciones de robots.txt no pueden impedir las referencias a las URL que provienen de otros sitios

    Mientras que Google no rastreará ni indexará el contenido bloqueado por robots.txt, es posible que encontremos e indexemos una URL no autorizada de otras partes de la Web. Por lo tanto, es posible que la dirección URL y otra información de disponibilidad pública, como el texto del enlace que lleva al sitio, todavía puedan aparecer en los resultados de las búsquedas de Google. Puedes impedir que la URL se muestre en los resultados de la Búsqueda de Google completamente utilizando una combinación de robots.txt y otros métodos de bloqueo de las URL, como proteger con contraseña los archivos del servidor, o bien insertar metaetiquetas para las indicaciones de indexación en el HTML.
Nota: La combinación de varias indicaciones de rastreo e indexación puede hacer que algunas indicaciones bloqueen otras. Para obtener más información sobre cómo configurar estas indicaciones correctamente, lee la sección Combinar el rastreo con las indicaciones de indexación o publicación de la documentación de Google Developers.
¿Te ha sido útil este artículo?
No