Búsqueda
Borrar búsqueda
Cerrar búsqueda
Aplicaciones de Google
Menú principal
true

Cómo bloquear URLs con robots.txt

Crear un archivo robots.txt

Para crear un archivo robots.txt, necesitas tener acceso a la raíz del dominio. Si no sabes exactamente cómo se accede a la raíz, ponte en contacto con el proveedor de servicios de alojamiento web. Además, si ya sabes que no tienes acceso, puedes utilizar métodos de bloqueo alternativos, como proteger con contraseña los archivos del servidor e insertar metaetiquetas en el código HTML.

Para crear o editar un archivo robots.txt existente, utiliza la herramienta Probador de robots.txt. Esta herramienta te permite probar los cambios mientras ajustas el archivo robots.txt.

Información sobre la sintaxis de robots.txt

El archivo robots.txt utiliza dos palabras clave, User-agent y Disallow. Los agentes de usuario son robots de los motores de búsqueda (o software de los rastreadores web) y, en su mayoría, figuran en la base de datos de robots web. El comando Disallow sirve para indicar al agente de usuario que no debe acceder a una URL en concreto. Por otro lado, para dar acceso a Google a una URL concreta que es un subdirectorio de un directorio principal bloqueado, puedes utilizar la tercera palabra clave, Allow.

Google usa varios agentes de usuario, como Googlebot para Búsqueda de Google y Googlebot-Image para Búsqueda de imágenes de Google. La mayoría de agentes de usuario de Google siguen las reglas que establezcas para Googlebot, pero también puedes anular esta opción y crear reglas específicas solo para determinados agentes de usuario de Google.

La sintaxis para utilizar las palabras clave es la siguiente:

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

Estas dos líneas juntas se consideran una única entrada en el archivo, y la regla Disallow solo se aplica a los agentes de usuario que se hayan especificado en la línea anterior. Puedes incluir todas las entradas que quieras y puedes aplicar varias líneas Disallow a varios agentes de usuario, todo en una única entrada. También puedes aplicar el comando User-agent a todos los rastreadores web. Para hacerlo, añade un asterisco (*) como se muestra a continuación:

User-agent: *

Comandos de bloqueo de URL para utilizar en el archivo robots.txt

Bloquear...

Muestra

Todo el sitio, con una barra inclinada (/):

Disallow: /

Un directorio y su contenido, insertando una barra inclinada después del nombre de este:

Disallow: /sample-directory/

Una página web, indicando la página después de la barra:

Disallow: /private_file.html

Una imagen específica de Google Imágenes:

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

Todas las imágenes que haya en tu sitio de Google Imágenes:

User-agent: Googlebot-Image

Disallow: /

Tipos de archivo específicos (por ejemplo, .gif):

User-agent: Googlebot

Disallow: /*.gif$

Las páginas del sitio, pero mostrar los anuncios de AdSense que haya en ellas, mediante el bloqueo de todos los rastreadores web que no sean Mediapartners-Google. Con este comando, se ocultan las páginas en los resultados de búsqueda, pero el rastreador web Mediapartners-Google puede seguir analizándolas para decidir qué anuncios se mostrarán a los visitantes del sitio.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, Disallow: /file.asp bloquearía http://www.example.com/file.asp, pero permitiría el acceso a http://www.example.com/File.asp. Googlebot también pasa por alto los espacios en blanco y las directivas desconocidas del archivo robots.txt.
Reglas de concordancia mediante patrones para simplificar el código del archivo robots.txt

Regla de concordancia mediante patrones

Muestra

Para bloquear una secuencia de caracteres, utiliza un asterisco (*). Por ejemplo, el código de muestra bloquea el acceso a todos los subdirectorios que empiezan por la palabra "privado":

User-agent: Googlebot

Disallow: /private*/

Para bloquear el acceso a todas las URL que incluyan signos de interrogación (?). Por ejemplo, el código de muestra bloquea las URL que empiezan con tu nombre de dominio, seguido de cualquier cadena y de un signo de interrogación, y que acaban con cualquier cadena:

User-agent: Googlebot

Disallow: /*?

Para bloquear URLs que terminen de una forma concreta, utiliza $. Por ejemplo, el código de muestra bloquea cualquier URL que acabe en .xls.

User-agent: Googlebot

Disallow: /*.xls$

Para bloquear patrones con las directivas "Allow" y "Disallow", consulta la muestra que hay a la derecha. En este ejemplo, un "?" indica un identificador de sesión. Las URL que contengan estos identificadores normalmente deberían bloquearse para evitar que Google rastree páginas duplicadas. Mientras tanto, si alguna de las URL que acaba en el signo "?" es una versión de la página que quieres incluir, puedes utilizar el siguiente enfoque, que combina las directivas "Allow" y "Disallow":

  1. La directiva Allow: /*?$ permite cualquier URL que acabe en un signo "?" (para ser más específicos, permite una URL que empiece con el nombre del dominio, seguido de una cadena, seguido del signo "?", sin caracteres después de "?").
  2. La directiva Disallow: / *? bloquea cualquier URL que incluya el signo "?" (para ser más específicos, bloquea una URL que empiece por el nombre del dominio, seguido de una cadena, seguido de un signo de interrogación, seguido de una cadena).

User-agent: *

Allow: /*?$

Disallow: /*?

Guardar el archivo robots.txt

Debes guardar el archivo siguiendo estas convenciones para que Googlebot y otros rastreadores web puedan encontrar e identificar el archivo robots.txt:

  • debes guardar el código del archivo robots.txt como archivo de texto,
  • debes ubicarlo en el directorio de nivel más alto del sitio (o en su raíz) y
  • El archivo debe llamarse robots.txt.

Por ejemplo, los rastreadores web pueden detectar un archivo robots.txt guardado en la raíz de example.com en la URL http://www.example.com/robots.txt, pero ningún rastreador web puede detectar un archivo robots.txt en la URL http://www.example.com/not_root/robots.txt.

¿Te ha sido útil este artículo?
¿Cómo podemos mejorar esta página?