Cómo bloquear URLs con robots.txt

Crear un archivo robots.txt

Si utilizas un servicio de alojamiento de sitios web, como Wix o Blogger, es probable que no tengas que crear ni editar un archivo robots.txt.

Empezar

Un archivo robots.txt se encuentra en la raíz de tu sitio web. En el caso del sitio web www.example.com, el archivo robots.txt se encuentra en www.example.com/robots.txt. robots.txt es un archivo de texto sin formato que cumple el estándar de exclusión de robots. Los archivos robots.txt constan de una o varias reglas, y cada una de ellas bloquea o permite el acceso de un determinado rastreador a una ruta de archivo especificada en ese sitio web.

A continuación se muestra un archivo robots.txt sencillo con dos reglas, que se explican más adelante:

# Regla 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Regla 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Explicación:

  1. El agente de usuario llamado "Googlebot" no debe rastrear la carpeta http://example.com/nogooglebot/ ni ninguno de sus subdirectorios.
  2. Los demás agentes de usuario pueden acceder a todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo, ya que de forma predeterminada se da acceso completo.
  3. El archivo de sitemap del sitio web está ubicado en http://www.example.com/sitemap.xml.

Más adelante se incluye un ejemplo más detallado.

Directrices básicas de robots.txt

A continuación se indican algunas directrices básicas sobre los archivos robots.txt. Te recomendamos que leas la sintaxis completa de los archivos robots.txt, ya que contiene algunos comportamientos sutiles que debes conocer.

Formato y ubicación

Puedes crear un archivo robots.txt con prácticamente cualquier editor de texto. Este editor tiene que crear archivos de texto UTF‑8 o ASCII estándar. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados como comillas curvas, que pueden causar problemas a los rastreadores.

Con la herramienta Probador de robots.txt, podrás escribir o editar archivos robots.txt para rastrear tu sitio web, así como comprobar su sintaxis y comportamiento durante el rastreo.

Reglas de formato y ubicación:

  • El archivo debe llamarse robots.txt.
  • Un sitio web solo puede tener un archivo robots.txt.
  • El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URL de http://www.example.com/, el archivo robots.txt debe ubicarse en http://www.example.com/robots.txt, no en un subdirectorio como, por ejemplo, http://example.com/pages/robots.txt. Si no sabes con seguridad cómo acceder a la raíz del sitio web o necesitas permisos para hacerlo, ponte en contacto con tu proveedor de servicios de alojamiento web. Si no puedes acceder a ella, utiliza un método de bloqueo alternativo, como las metaetiquetas.
  • Los archivos robots.txt se pueden aplicar a subdominios como, por ejemplo, http://sitioweb.example.com/robots.txt, o en puertos no estándar como http://example.com:8181/robots.txt.
  • Los comentarios son todas las líneas que empiezan por "#". 

Sintaxis

  • El archivo robots.txt tiene que ser un archivo de texto ASCII o UTF-8. No se permiten otros caracteres.
  • Los archivos robots.txt constan de una o varias reglas.
  • Cada regla consta de varias directivas o instrucciones, una por línea.
  • Una regla proporciona la siguiente información:
    • A quién se aplica la regla (el agente de usuario).
    • A qué directorios o archivos puede acceder ese agente.
    • A qué directorios o archivos no puede acceder ese agente.
  • Las reglas se procesan en el orden en que aparecen en el texto y cada agente de usuario solo puede coincidir con un conjunto de reglas, que será la primera regla más específica que coincida con un agente de usuario determinado.
  • De forma predeterminada, los agentes de usuario pueden rastrear páginas o directorios que no estén bloqueados por una regla Disallow:.
  • El sistema de las reglas distingue entre mayúsculas y minúsculas. Por ejemplo, la regla Disallow: /file.asp se aplica a http://www.example.com/file.asp pero no a http://www.example.com/FILE.asp.

En los archivos robots.txt se utilizan las siguientes directivas:

  • User-agent (agente de usuario): es obligatorio, hay uno o varios por regla, e indica el nombre del robot del buscador (software del rastreador web) al que se aplica la regla. Se encuentra en la primera línea en cualquier regla. La mayor parte de los nombres de los agentes de usuario figuran en la base de datos de robots web o en la lista de agentes de usuario de Google. Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta. Si se utiliza un asterisco (*) como en el siguiente ejemplo, afectará a todos los rastreadores, salvo a los de AdsBot, que deben nombrarse de forma explícita. Consulta la lista de nombres de rastreadores de Google. Ejemplos:
    # Ejemplo 1: bloquear solo el robot de Google
    User-agent: Googlebot
    Disallow: /
    
    # Ejemplo 2: bloquear el robot de Google y AdsBot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Ejemplo 3: bloquear todo menos los rastreadores de AdsBot
    User-agent: * 
    Disallow: /
  • Disallow (bloquear): indica los directorios o páginas del dominio raíz que el agente de usuario no debe rastrear. Debe haber por lo menos una entrada Disallow o Allow en cada regla. Si es una página, se debe indicar el nombre completo de la página que se muestra en el navegador, mientras que si es un directorio debe terminar en "/".  Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta.
  • Allow (permitir): indica los directorios o las páginas del dominio raíz que el agente de usuario mencionado anteriormente debe rastrear. Debe haber por lo menos una entrada Disallow o Allow en cada regla. Se utiliza para anular la directiva Disallow y permitir que se rastree un determinado subdirectorio o una página de un directorio bloqueado. Si es una página, se debe indicar el nombre completo de la página que se muestra en el navegador, mientras que si es un directorio debe terminar en "/". Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta.
  • Sitemap: indica la ubicación de un sitemap de este sitio web. Puede haber uno, varios o ninguno en cada archivo. Debe ser una URL completa, ya que Google no comprueba alternativas sin www ni sin http/ o https/. Los sitemaps son una buena forma de indicar qué contenido debe rastrear Google, frente al contenido que puede o no puede rastrear. Consulta más información sobre los sitemapsEjemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Las palabras clave desconocidas se ignoran.

Otro archivo de ejemplo

Los archivos robots.txt constan de uno o varios bloques de reglas que comienzan con la línea User-agent, que especifica el objetivo de las reglas. A continuación se muestra un archivo con dos reglas, que se explican en comentarios insertados:

# Bloquear el acceso de googlebot a example.com/directory1/... y a example.com/directory2/...
# pero permitir que acceda a directory2/subdirectory1/...
# El acceso a los otros directorios del sitio web está permitido de forma predeterminada.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Impedir que anothercrawler acceda al sitio web.
User-agent: anothercrawler
Disallow: /

Sintaxis completa de robots.txt

Consulta la sintaxis completa de robots.txt. Lee toda la documentación, ya que la sintaxis de robots.txt tiene partes complicadas que es importante que conozcas.

Reglas útiles de robots.txt

A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:

Regla Ejemplo
Bloquear el rastreo de todo el sitio web. Recuerda que, en algunas situaciones, las URL del sitio web se indexarán aunque no se hayan rastreado previamente. Nota: Esta regla no afecta a los rastreadores de AdsBot, que deben nombrarse explícitamente.
User-agent: *
Disallow: /
Bloquear el rastreo de un directorio y de su contenido, para lo que se debe incluir una barra después del nombre del directorio. Recuerda que, para bloquear el acceso a contenido privado, no se debe utilizar el archivo robots.txt, sino un método de autenticación adecuado. Las URL bloqueadas por el archivo robots.txt se seguirán indexando aunque no se rastreen, lo que puede hacer que se revele la ubicación del contenido privado, ya que cualquier persona puede acceder al archivo robots.txt.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir que acceda un solo rastreador.
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto.
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Bloquear el rastreo de una única página web, para lo que se debe incluir la página después de la barra.

Disallow: /private_file.html

Bloquear una imagen concreta para que no aparezca en Google Imágenes.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas las imágenes que haya en tu sitio web para que no aparezcan en Google Imágenes.

User-agent: Googlebot-Image
Disallow: /

Bloquear el rastreo de tipos de archivo concretos (por ejemplo, .gif):

User-agent: Googlebot
Disallow: /*.gif$

Bloquear el rastreo del sitio web, pero mostrar anuncios de AdSense en esas páginas, para lo que debes permitir que solo el rastreador web Mediapartners-Google acceda a tu sitio web. Con este comando, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web Mediapartners-Google puede seguir analizándolas para decidir qué anuncios se mostrarán a los visitantes del sitio web.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Bloquear las URL que terminen de una forma concreta, para lo que se debe incluir $. Con el código que se indica en el ejemplo, se bloquean las URL que acaben en .xls.
User-agent: Googlebot
Disallow: /*.xls$
¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?