Cómo bloquear el acceso a los archivos

Si tienes páginas u otro contenido que no quieres que aparezcan en los resultados de búsqueda de Google, tienes varias opciones.

  • Si necesitas conservar el contenido confidencial en el servidor, guárdalo en un directorio protegido con contraseña. De este modo, ni el robot ni otras arañas podrán acceder al contenido. Esta es la forma más sencilla y eficaz de evitar que el robot de Google y otras arañas rastreen e indexen el contenido de tu sitio. Si utilizas un servidor web Apache, puedes editar el archivo .htaccess para proteger el directorio en el servidor con una contraseña. Existen muchas herramientas en Internet que te permiten hacer esto fácilmente.

  • Utiliza un archivo robots.txt para controlar el acceso a los archivos y directorios del servidor. El archivo robots.txt es como una señal electrónica de prohibición del paso, ya que indica al robot de Google y a otros rastreadores qué archivos y directorios del servidor no deben rastrearse.

    Para utilizar un archivo robots.txt, es necesario disponer de acceso al directorio raíz de tu host (si no estás seguro, compruébalo con tu proveedor de alojamiento web). Si no tienes acceso a la raíz del dominio, puedes restringir el acceso con la metaetiqueta "robots" en cada página.

    Es importante que tengas en cuenta que aunque utilices un archivo robots.txt para impedir que las arañas rastreen el contenido de tu sitio, Google puede descubrir ese contenido de otras formas y añadirlo al índice. Por ejemplo, es posible que otros sitios sigan incluyendo enlaces a ese sitio. Como consecuencia, puede que la URL de la página y otros datos disponibles públicamente, como el texto del enlace en enlaces que dirigen al sitio o el título de Open Directory Project, aparezcan en los resultados de búsqueda de Google. Además, a pesar de que todos los robots acreditados respetarán las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, recomendamos que se proteja la información confidencial mediante contraseñas (según se explicaba anteriormente).

    Puedes probar tu archivo robots.txt en la pestaña URL bloqueadas (robots.txt) de la página Acceso del rastreador.

    Información sobre cómo usar un archivo robots.txt para controlar el acceso a tu sitio web


  • Usa una metaetiqueta noindex para evitar que el contenido se muestre en los resultados de búsqueda. Cuando vemos una metaetiqueta "noindex" en una página, Google descarta la página completamente en los resultados de búsqueda aunque otras páginas enlacen con esta. Si el contenido se encuentra en nuestro índice, lo eliminaremos cuando finalice el próximo rastreo y procesamiento del contenido. (Para acelerar el proceso, utiliza la herramienta Eliminar URL de Herramientas para webmasters de Google). Sin embargo, otros motores de búsqueda pueden interpretar esta directiva de forma distinta. Como consecuencia, es posible que todavía aparezca un enlace en los resultados de búsqueda.

    Debido a que tenemos que rastrear tu página para ver la etiqueta "noindex", existe una pequeña posibilidad de que Googlebot no vea y respete la metaetiqueta (por ejemplo, si no hemos rastreado la página desde que añadiste la etiqueta).

    Información sobre cómo utilizar las metaetiquetas para controlar el acceso a tu sitio web