Acerca de robots.txt

Crear un archivo robots.txt

Si utilizas un servicio de alojamiento de sitios web, como Wix o Blogger, es probable que no tengas que crear ni editar un archivo robots.txt.

Empezar

Los archivos robots.txt deben situarse en la raíz de los sitios web; por ejemplo, si tu sitio web es example.com, debe estar en www.example.com/robots.txt. Además, tienen que ser archivos de texto sin formato que cumplan el estándar de exclusión de robots. En estos archivos se incluyen uno o varios grupos, y cada uno de ellos bloquea o permite el acceso de un determinado rastreador a una ruta de archivo concreta del sitio web.

A continuación se muestra un archivo robots.txt sencillo con dos grupos, que se explican más abajo:

# Grupo 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Grupo 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Explicación:

  1. El user-agent llamado "Googlebot" no debe rastrear la carpeta http://example.com/nogooglebot/ ni ninguno de sus subdirectorios.
  2. Los demás user-agent pueden acceder a todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo, ya que de forma predeterminada se da acceso completo.
  3. El archivo de sitemap del sitio web está ubicado en http://www.example.com/sitemap.xml.

Más adelante se incluye un ejemplo más detallado.

Directrices básicas de robots.txt

A continuación se indican algunas directrices básicas sobre los archivos robots.txt. Te recomendamos que leas la sintaxis completa de los archivos robots.txt, ya que contiene algunos comportamientos sutiles que debes conocer.

Formato y ubicación

Puedes crear archivos robots.txt con prácticamente cualquier editor de texto; solo tienes que comprobar que el editor pueda crear archivos de texto UTF‑8 estándar. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados que pueden causar problemas a los rastreadores, como comillas curvas.

Con la herramienta Probador de robots.txt, puedes escribir o editar archivos robots.txt para controlar el rastreo de tu sitio web, así como comprobar su sintaxis y revisar su comportamiento durante el rastreo.

Reglas de formato y ubicación:

  • El archivo debe llamarse robots.txt.
  • Solo puede haber un archivo robots.txt por sitio web.
  • El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URL de http://www.example.com/, el archivo robots.txt debe estar en http://www.example.com/robots.txt y no en un subdirectorio como, por ejemplo, http://example.com/páginas/robots.txt. Si no sabes con seguridad cómo acceder a la raíz de tu sitio web o necesitas permisos para hacerlo, ponte en contacto con tu proveedor de servicios de alojamiento web. Si no puedes acceder a la raíz, utiliza un método de bloqueo alternativo, como las metaetiquetas.
  • Los archivos robots.txt se pueden aplicar a subdominios, como http://sitioweb.example.com/robots.txt, y a puertos no estándar, como http://example.com:8181/robots.txt.
  • Los comentarios se indican con una almohadilla (#).

Sintaxis

  • Los archivos robots.txt deben estar codificados en UTF-8, que incluye ASCII. No se pueden utilizar otros conjuntos de caracteres.
  • Los archivos robots.txt constan de uno o varios grupos.
  • Cada grupo consta de varias reglas o directivas (instrucciones). Debe añadirse una directiva por línea.
  • En un grupo se proporciona la siguiente información:
    • A quién se aplica el grupo; es decir, el user‑agent.
    • A qué directorios o archivos puede acceder ese user‑agent.
    • A qué directorios o archivos no puede acceder ese user‑agent.
  • Los grupos se procesan en el orden en que aparecen en el texto. Los user‑agent solo siguen las directivas de un grupo, que será el primero que incluya la regla más específica que coincida con el user‑agent en cuestión.
  • De forma predeterminada, los user‑agent pueden rastrear todas las páginas y directorios que no estén bloqueados por una regla Disallow:.
  • El sistema de las reglas distingue entre mayúsculas y minúsculas. Por ejemplo, la regla Disallow: /file.asp se aplica a http://www.example.com/file.asp pero no a http://www.example.com/FILE.asp.

En los archivos robots.txt se utilizan las siguientes directivas:

  • User‑agent: esta directiva debe incluirse al menos una vez en cada grupo e indica el nombre de un robot de buscador (es decir, del software de rastreador web al que se aplica la regla). Se encuentra en la primera línea de cualquier grupo. La mayoría de los nombres de los user‑agent figuran en la base de datos de robots web o en la lista de user-agent de Google. Se admite el carácter comodín * en el prefijo y en el sufijo, así como para sustituir toda la cadena. Si se usa el asterisco (*) como en el ejemplo que se incluye más abajo, el grupo se aplicará a todos los rastreadores, salvo a los de AdsBot, que deben incluirse de forma explícita. Consulta la lista de nombres de rastreadores de Google. Ejemplos:
    # Ejemplo 1: bloquear solo el robot de Google
    User-agent: Googlebot
    Disallow: /
    
    # Ejemplo 2: bloquear el robot de Google y AdsBot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Ejemplo 3: bloquear todos los rastreadores menos los de AdsBot
    User-agent: * 
    Disallow: /
  • Disallow: en cada grupo debe haber por lo menos una entrada Disallow o Allow. Esta directiva indica los directorios o páginas del dominio raíz que el user‑agent no debe rastrear. Si se bloquea una página, debe especificarse su nombre completo tal como se muestra en el navegador, mientras que, si se quiere impedir el acceso a un directorio, debe incluirse una barra (/) al final.  Se admite el carácter comodín * en el prefijo y en el sufijo, así como para sustituir toda la cadena.
  • Allow: en cada grupo debe haber por lo menos una entrada Disallow o Allow. Esta directiva indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Anula la directiva Disallow, por lo que se puede utilizar para permitir que se rastree un determinado subdirectorio o página de un directorio bloqueado. Si es una página, se debe indicar el nombre completo de la página que se muestra en el navegador, mientras que si es un directorio debe terminar en "/". Se admite el carácter comodín * en el prefijo y en el sufijo, así como para sustituir toda la cadena.
  • Sitemap: no es obligatorio incluir esta directiva, y en cada archivo puede haber varias. Indica la ubicación de un sitemap del sitio web. Debe añadirse una URL completa, ya que Google no comprueba alternativas con o sin www, o con http o https. Los sitemaps son una buena forma de indicar qué contenido debe rastrear Google, frente al contenido que puede o no puede rastrear. Más información sobre los sitemaps Ejemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

El resto de las reglas se ignoran.

Otro archivo de ejemplo

Los archivos robot.txt están formados por uno o varios grupos que deben empezar por la línea User-agent, en la que se indica a qué rastreador se aplica cada uno de ellos. A continuación, se muestra un archivo que incluye dos grupos y comentarios insertados que los explican:

# Bloquear el acceso del robot de Google a example.com/directory1/... y a example.com/directory2/...
# pero permitir que acceda a directory2/subdirectory1/...
# El acceso a los otros directorios del sitio web está permitido de forma predeterminada.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Impedir que anothercrawler acceda al sitio web.
User-agent: anothercrawler
Disallow: /

Sintaxis completa de robots.txt

Consulta la sintaxis completa de robots.txt. Lee toda la documentación, ya que la sintaxis de robots.txt tiene partes complicadas que es importante que conozcas.

Reglas útiles de robots.txt

A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:

Regla Ejemplo
Bloquear el rastreo de todo el sitio web. Recuerda que, en algunas situaciones, las URL del sitio web se indexarán aunque no se hayan rastreado previamente. Nota: Esta regla no afecta a los rastreadores de AdsBot, que deben nombrarse explícitamente.
User-agent: *
Disallow: /
Bloquear el rastreo de un directorio y de su contenido, para lo que se debe incluir una barra después del nombre del directorio. Recuerda que, para bloquear el acceso a contenido privado, no se debe utilizar el archivo robots.txt, sino un método de autenticación adecuado. Las URL bloqueadas por el archivo robots.txt se seguirán indexando aunque no se rastreen, lo que puede hacer que se revele la ubicación del contenido privado, ya que cualquier persona puede acceder al archivo robots.txt.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir que acceda un solo rastreador.
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto.
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Bloquear el rastreo de una única página web, para lo que se debe incluir la página después de la barra.

User-agent: *
Disallow: /private_file.html

Bloquear una imagen concreta para que no aparezca en Google Imágenes.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas las imágenes que haya en tu sitio web para que no aparezcan en Google Imágenes.

User-agent: Googlebot-Image
Disallow: /

Bloquear el rastreo de tipos de archivo concretos (por ejemplo, .gif):

User-agent: Googlebot
Disallow: /*.gif$

Bloquear el rastreo del sitio web, pero mostrar anuncios de AdSense en esas páginas, para lo que debes permitir que solo el rastreador web Mediapartners-Google acceda a tu sitio web. Con este comando, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web Mediapartners-Google puede seguir analizándolas para decidir qué anuncios se mostrarán a los visitantes del sitio web.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Bloquear las URL que terminen de una forma concreta, para lo que se debe incluir $. Con el código que se indica en el ejemplo, se bloquean las URL que acaben en .xls.
User-agent: Googlebot
Disallow: /*.xls$
¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?