Bloquear el acceso a contenido de tu sitio web

Este artículo explica cómo bloquear el acceso a contenido de tu sitio web.

Es posible que parte del contenido que publiques no sea relevante para aparecer en Google Noticias. Bloquea el acceso al rastreador de robots de Google, al robot de Google y al robot de Google para Noticias para restringir el acceso de Google a algunos contenidos.

Crear archivos robots.txt

Utiliza un archivo robots.txt para controlar qué partes de tu sitio web pueden aparecer en la Búsqueda de Google y en Google Noticias. Obtén más información sobre los archivos robots.txt.

Puedes bloquear el acceso de las siguientes formas:

Para impedir que tu sitio aparezca en Google Noticias, bloquea el acceso a Googlebot-News con un archivo robots.txt.
Para impedir que tu sitio aparezca en Google Noticias y en la Búsqueda de Google, bloquea el acceso al robot de Google con un archivo robots.txt.

Debes permitir que el rastreador de Google tenga acceso al archivo robots.txt para que sepamos qué secciones de tu sitio web has pedido que no se rastreen.

Crear metaetiquetas

Puedes añadir metaetiquetas a una página HTML. Las metaetiquetas indican a los buscadores qué límites deben aplicarse al mostrar páginas en los resultados de búsqueda. Obtén más información sobre cómo bloquear el indexado de búsquedas con metaetiquetas.

Estas son algunas de las metaetiquetas habituales que puedes añadir a tus páginas HTML:

Para impedir que determinados artículos de tu sitio web aparezcan en Google Noticias, bloquea el acceso a Googlebot-News con la siguiente metaetiqueta: <meta name="Googlebot-News" content="noindex, nofollow">.
Para impedir que determinados artículos de tu sitio web aparezcan en Google Noticias y en la Búsqueda de Google, bloquea el acceso al robot de Google con la siguiente metaetiqueta: <meta name="googlebot" content="noindex, nofollow">.
Para impedir que todos los robots indexen determinados artículos de tu sitio web, utiliza la siguiente metaetiqueta: <meta name="robots" content="noindex, nofollow">.
Para impedir que los robots rastreen imágenes de un artículo determinado, utiliza la siguiente metaetiqueta: <meta name="robots" content="noimageindex">.
Para informarnos de que un artículo debe retirarse del índice de Google en un momento determinado, utiliza la siguiente metaetiqueta: <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">.
Especifica la hora y la fecha en formato RFC 850. Esta metaetiqueta se trata como una solicitud de retirada. Para que la página desaparezca de los resultados de búsqueda debe transcurrir aproximadamente un día desde la fecha de eliminación. Sin embargo, para que la etiqueta funcione correctamente, debe estar incluida en tu artículo en el momento en el que se rastree por primera vez.
Hay otras opciones para limitar el contenido que se muestra en los resultados de búsqueda. Consulta más información en la documentación para desarrolladores.

Especificaciones de la cabecera HTTP

También puedes proporcionar instrucciones a los robots en el encabezado de respuesta HTTP. Para obtener más información, consulta las especificaciones del encabezado HTTP.

Importante: Google interpreta de la forma más restrictiva posible la decisión del robot.