Acerca de robots.txt

Preguntas frecuentes sobre robots

Preguntas generales sobre robots

Preguntas sobre el archivo robots.txt

Preguntas sobre la metaetiqueta robots

Preguntas sobre la cabecera HTTP X-Robots-Tag

¿Echas en falta alguna pregunta frecuente? No dudes en escribir en nuestros foros de ayuda para webmasters si necesitas más ayuda.

Preguntas generales sobre robots

¿Necesita mi sitio web un archivo robots.txt?

No es necesario. Cuando el robot de Google visita un sitio web, primero se intenta recuperar el archivo robots.txt para obtener el permiso de rastreo. Por lo general, un sitio web que no contenga un archivo robots.txt, metaetiquetas robots o cabeceras HTTP X-Robots-Tag se debe rastrear e indexar con normalidad.

¿Qué método debo utilizar?

Según el caso, es recomendable utilizar uno de los métodos que se indican a continuación:

  1. robots.txt: se utiliza si el rastreo de contenido causa problemas en el servidor. Por ejemplo, puedes utilizar este método para impedir que se rastreen secuencias de comandos de calendarios infinitos. No hay que utilizar el archivo robots.txt para bloquear contenido privado (en su lugar, usa la autenticación en el servidor) ni para gestionar la canonicalización (consulta este artículo de nuestro Centro de Ayuda sobre este tema). Si necesitas asegurarte de que no se indexa una URL, utiliza la metaetiqueta robots o la cabecera HTTP "X-Robots-Tag".
  2. metaetiqueta robots: se utiliza para controlar la forma en que aparece una página HTML específica en los resultados de búsqueda (o para asegurarse de que no aparezca).
  3. cabecera HTTP X-Robots-Tag: se utiliza para controlar la forma en que aparece el contenido que no sea HTML en los resultados de búsqueda (o para asegurarse de que no aparezca).

¿Puedo utilizar estos métodos para eliminar el sitio web de otra persona?

No, estos métodos solo son válidos para los sitios web en los que puedes modificar el código o añadir archivos. Si quieres retirar el contenido de un sitio web de terceros, debes ponerte en contacto con el webmaster para que retiren el contenido.

¿Cómo puedo reducir la frecuencia de rastreo de mi sitio web?

Por lo general, puedes ajustar la frecuencia de rastreo en tu cuenta de Google Search Console.

Preguntas sobre el archivo robots.txt

Si utilizo el mismo archivo robots.txt para diversos sitios web, ¿puedo usar una URL completa en lugar de una ruta relativa?

No, las directivas del archivo robots.txt (salvo "Sitemap:") son válidas únicamente para las rutas relativas.

¿Puedo colocar el archivo robots.txt en un subdirectorio?

No, debes ubicar el archivo en el directorio superior de la página web.

Si quiero bloquear una carpeta privada, ¿puedo impedir que otras personas lean el archivo robots.txt?

No, el archivo robots.txt lo pueden leer diversos usuarios. Si tienes carpetas o archivos que incluyen contenido que no debe ser público, no debes incluirlos en el archivo robots.txt. No recomendamos proporcionar diferentes archivos robots.txt basándose en el user-agent ni en otros atributos.

¿Tengo que incluir una directiva allow para permitir el rastreo?

No, no es necesario incluir allow. La directiva allow se utiliza para anular directivas disallow en el mismo archivo robots.txt.

¿Qué ocurriría si cometiera un error en el archivo robots.txt o si utilizara una directiva no admitida?

Normalmente, los rastreadores web son muy flexibles y no se ven influenciados por pequeños errores del archivo robots.txt. Por lo general, lo peor que puede suceder es que se ignoren directivas incorrectas o no admitidas. Sin embargo, debes tener en cuenta que Google no puede adivinar cosas al interpretar un archivo robots.txt, sino que tiene que interpretar el archivo robots.txt que exploramos. No obstante, si ya conoces los problemas de tu archivo robots.txt suele ser más fácil solucionarlos.

¿Qué programa debo utilizar para crear un archivo robots.txt?

Puedes emplear cualquier programa que cree un archivo de texto válido. Los programas que se utilizan normalmente para crear archivos robots.txt son Bloc de notas, TextEdit, vi o emacs. Consulta más información sobre cómo crear archivos robot.txt. Cuando hayas creado el tuyo, valídalo con la herramienta Probador de robots.txt.

Si bloqueo una página mediante la directiva disallow de robots.txt para que Google no la rastree, ¿la página dejará de mostrarse en los resultados de búsqueda?

Si impides que Google rastree una página, es posible que se quite del índice de Google. 

Sin embargo, la directiva Disallow de los archivos robots.txt no garantiza que las páginas bloqueadas no se muestren en los resultados: es posible que Google decida que es relevante de todos modos, de acuerdo con información externa, como los enlaces entrantes. Si quieres bloquear explícitamente que se indexe una página, tienes que utilizar la directiva noindex de la metaetiqueta robots o la cabecera HTTP X-Robots-Tag. En ese caso, el archivo robots.txt debe permitir la indexación de la página, ya que es necesario rastrearla para ver la etiqueta y obedecerla.

¿Cuánto tiempo tiene que pasar para que los cambios del archivo robots.txt se reflejen en los resultados de búsqueda?

En primer lugar, hay que actualizar la memoria caché del archivo robots.txt (el contenido se suele almacenar en caché durante un día como máximo). Aunque se haya detectado un cambio, el rastreo y la indexación son procesos complejos que en ocasiones pueden requerir un cierto tiempo para determinadas URL, por lo que es imposible indicar un plazo exacto. Además, debes tener en cuenta que, aunque el archivo robots.txt impida el acceso a una URL, esta puede permanecer visible en los resultados de búsqueda a pesar de que no podamos rastrearla. Si quieres que las páginas en las que hayas bloqueado el rastreo de Google se retiren del índice cuanto antes, envía una solicitud de retirada a través de Google Search Console.

¿Cómo puedo suspender de manera temporal todos los rastreos de mi sitio web?

Puedes suspender de manera temporal todos los rastreos mostrando un código de resultado HTTP 503 para todas las URL, incluido el archivo robots.txt. Se intentará consultar periódicamente su archivo robots.txt hasta que se recupere el acceso. No es recomendable cambiar el archivo robots.txt para impedir el rastreo.

Si mi servidor no distingue entre mayúsculas y minúsculas, ¿cómo puedo impedir el rastreo de algunas carpetas por completo?

Las directivas del archivo robots.txt distinguen entre mayúsculas y minúsculas. En este caso, es importante asegurarse de que solo se está indexando una versión de la URL con los métodos de canonicalización. Esto permite simplificar el contenido del archivo robots.txt. Si no puedes utilizar estos métodos, te recomendamos que indiques las combinaciones comunes del nombre de la carpeta o que lo acortes lo máximo posible utilizando únicamente los primeros caracteres en lugar del nombre completo. Por ejemplo, en lugar de indicar todas las permutaciones en mayúscula o en minúscula de "/MiCarpetaPrivada", podrías recoger las permutaciones de "/MiC" (si tienes la certeza de que no existe otra URL que se pueda rastrear con esos caracteres iniciales). Otra alternativa sería utilizar una metaetiqueta robots o una cabecera HTTP "X-Robots-Tag" si el rastreo no supone un problema.

Si mi sitio web muestra el mensaje 403 "Prohibido" para todas las URL, incluido el archivo robots.txt, ¿por qué se sigue rastreando?

El código de resultado HTTP 403, al igual que el resto de los códigos de resultado HTTP 4xx, se interpreta como una señal de que no dispone de un archivo robots.txt. Por tanto, los rastreadores suelen asumir que pueden rastrear todas las URL del sitio web. Para impedir el rastreo del sitio web, se debe utilizar un archivo robots.txt normal (con un código de resultado HTTP 200 "Correcto") e incluir en él la directiva "disallow" correspondiente.

Preguntas sobre la metaetiqueta robots

¿La metaetiqueta robots sustituye al archivo robots.txt?

No, el archivo robots.txt es quien controla a qué páginas se accede. La metaetiqueta robots determina si una página se puede indexar. Sin embargo, para ver esta etiqueta tiene que rastrearse la página. Si el rastreo de la página plantea problemas (por ejemplo, si la página causa una sobrecarga del servidor), te recomendamos utilizar el archivo robots.txt. Si el problema se reduce a si la página se muestra o no en los resultados de búsqueda, se puede utilizar la metaetiqueta robots.

¿Se puede utilizar la metaetiqueta robots para impedir que se indexe una parte de una página?

No, la metaetiqueta robots es una opción de configuración de nivel de página.

¿Puedo utilizar la metaetiqueta robots fuera de la sección <head>?

No, actualmente la metaetiqueta robots tiene que incluirse en la sección <head> de una página.

¿La metaetiqueta robots impide el rastreo?

No, ya que aunque esta incluya noindex, tendremos que volver a rastrear la URL de vez en cuando para saber si la metaetiqueta ha cambiado.

¿Cómo funciona la directiva nofollow de la metaetiqueta robots comparada con el atributo de enlace rel="nofollow"?

La directiva nofollow de la metaetiqueta robots se aplica a todos los enlaces de una página. El atributo de enlace rel="nofollow" solo se aplica a enlaces específicos de una página. Para obtener más información sobre el atributo de enlace rel="nofollow", consulta nuestros artículos sobre spam generado por usuarios y sobre rel="nofollow" en el Centro de Ayuda.

Preguntas sobre la cabecera HTTP X-Robots-Tag

¿Cómo puedo comprobar la cabecera "X-Robots-Tag" de una URL?

Para ver las cabeceras de servidor fácilmente, puedes utilizar un verificador de cabeceras de servidor basado en web o la función Explorar como Googlebot de Google Search Console.

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?