Cómo bloquear o eliminar páginas con un archivo robots.txt

La herramienta Generar archivo robots.txt desaparecerá. Puedes crear un archivo robots.txt manualmente o utilizar una de las herramientas de generación de robots.txt en la Web.

Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de Rastreo de Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no deseas que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta "robots".

Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web. La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.

Cómo crear un archivo robots.txt

El archivo robots.txt más simple utiliza dos reglas:

  • User-agent: el robot al que se aplica la regla siguiente
  • Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:


User-agent: *
Disallow: /carpeta1/

User-Agent: Googlebot

Disallow: /carpeta2/

En este ejemplo, las únicas URL que no puede rastrear el robot de Google son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye muchos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para la búsqueda web de Google es el robot de Google. El resto de nuestros robots, como el Robot de Google para dispositivos móviles y Googlebot-Image, siguen las reglas configuradas para el robot de Google, aunque también pueden definirse reglas específicas para ellos.

Bloqueo de user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

  • Para bloquear todo el sitio, utilice una barra inclinada.
    Disallow: /
  • Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.
    Disallow: /directorio-sintítulo/
  • Para bloquear una página, insértala después de la línea Disallow.
    Disallow: /archivo_privado.html
  • Para eliminar una imagen de Google Imágenes, añada lo siguiente:
    User-agent: Googlebot-Image
    
    Disallow: /imagenes/perros.jpg 
  • Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:
    User-agent: Googlebot-Image
    
    Disallow: / 
  • Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Para evitar que se rastreen las páginas de su sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-MediaPartners no comparte páginas con otros user-agents de Google. Por ejemplo:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    
    Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, DIsallow: /archivo_basura.asp bloquearía http://www.example.com/archivo_basura.asp, pero permitiría http://www.example.com/Archivo_basura.asp. El robot de Google ignorará los espacios en blanco (en particular, las líneas vacías) y las directivas desconocidas en robots.txt.

El robot de Google permite enviar archivos de sitemaps mediante el archivo robots.txt.

Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

  • Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por "privado":
    User-agent: Googlebot
    Disallow: /privado*/
  • Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:
    User-agent: Googlebot
    Disallow: /*?
  • Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Puede utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configure su archivo robots.txt del siguiente modo:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Más concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

    La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Más concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/misitio/robots.txt no lo es.

Cómo probar un archivo robots.txt

La herramienta de prueba de robots.txt te mostrará si el archivo robots.txt está impidiendo de forma accidental que el robot de Google rastree un archivo o un directorio de tu sitio o si está permitiendo que Googlebot rastree archivos que no deben aparecer en la Web. Al introducir el texto de un archivo robots.txt propuesto, la herramienta lo lee de la misma forma que Googlebot y muestra los efectos del archivo y los posibles errores que se hayan detectado.

Para probar el archivo robots.txt de un sitio, sigue estos pasos:

  1. En la página principal de Herramientas para webmasters de Google, haz clic en el sitio que quieras.
  2. En Rastrear, haz clic en URL bloqueadas.
  3. Si aún no se ha seleccionado, haz clic en la pestaña Probar robots.txt.
  4. Copia el contenido del archivo robots.txt y pégalo en el primer cuadro.
  5. En el cuadro URL, indica el sitio en el que quieras probar el archivo.
  6. En la lista User-agents, selecciona los user-agents que quieras.

No se guardará ninguno de los cambios que realices en esta herramienta. Para guardar un cambio, tendrás que copiar el contenido y pegarlo en el archivo robots.txt.

Esta herramienta proporciona resultados únicamente para los user-agents de Google, como el robot de Google. Es posible que otros robots no interpreten el archivo robots.txt del mismo modo. Por ejemplo, Googlebot responde a una definición ampliada del protocolo de robots.txt estándar. Entiende las directivas Allow:, así como algunas concordancias mediante patrones. De esta forma, aunque la herramienta muestre líneas que incluyen estas extensiones como comprendidas, no olvides que esto afecta únicamente al robot de Google, no necesariamente a todos los robots que rastreen tu sitio web.