Utiliser des robots pour bloquer Google Actualités

Les organismes de presse publient de très nombreux contenus et nous savons bien que tous n'ont pas forcément vocation à figurer sur Google Actualités. Google Actualités utilise le même robot d'exploration que la Recherche sur le Web Google : Googlebot.

La Recherche sur le Web Google et Google Actualités prennent en charge deux robots différents, à savoir Googlebot and Googlebot-News. Vous pouvez les utiliser comme balises Meta ou dans votre fichier robots.txt pour contrôler où vos contenus doivent apparaître.

Autrement dit :

  • Si vous bloquez l'accès à Googlebot-News, vos contenus ne figureront pas dans Google Actualités.
  • Si vous bloquez l'accès à Googlebot, vos contenus ne figureront pas dans Google Actualités ni dans la Recherche sur le Web Google.

Pour information, Google respecte l'interprétation la plus restrictive de votre choix de robots.

Créer un fichier robots.txt

L'utilisation d'un fichier robots.txt vous permet de contrôler efficacement quelles parties de votre site apparaissent dans la Recherche Google et dans Google Actualités. Un guide très complet permettant de tout savoir sur la création et la maintenance des fichiers robots.txt est disponible dans le Centre d'aide pour les webmasters.

Remarque :

  • Pour empêcher votre site de figurer dans Google Actualités, bloquez l'accès à Googlebot-News à l'aide d'un fichier robots.txt.
  • Pour empêcher votre site de figurer dans Google Actualités et dans la Recherche sur le Web Google, bloquez l'accès à Googlebot à l'aide d'un fichier robots.txt.

Assurez-vous de founir à notre robot d'exploration l'accès à votre fichier robots.txt afin que nous sachions si vous avez indiqué que certaines sections de votre site ne doivent pas être explorées.

Créer une balise Meta

Plutôt que d'utiliser un fichier robots.txt pour empêcher l'exploration de certaines zones de votre site, vous pouvez ajouter une balise Meta dans le code des pages HTML que vous ne souhaitez pas que les robots explorent. Ce standard est décrit dans le Centre d'aide pour les webmasters.

Remarque :

  • Pour empêcher certains articles de votre site de figurer dans Google Actualités, bloquez l'accès à Googlebot-News en utilisant la balise Meta suivante :

<meta name="Googlebot-News" content="noindex, nofollow">

  • Pour empêcher certains articles de votre site de figurer dans Google Actualités et dans la Recherche sur le Web Google, bloquez l'accès à Googlebot en utilisant la balise Meta suivante :

<meta name="googlebot" content="noindex, nofollow">

  • Pour empêcher tous les robots d'explorer certains articles de votre site, bloquez l'accès en utilisant la balise Meta suivante :

<meta name="robots" content="noindex, nofollow">

  • Pour empêcher les robots d'explorer les images d'un article spécifique, bloquez l'accès en utilisant la balise Meta suivante :

<meta name="robots" content="noimageindex">

  • Pour nous signaler qu'un article arrivera à expiration à une date donnée et qu'il faudra alors le supprimer de l'index de Google, utilisez la balise suivante 

<meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

L'heure et la date doivent être spécifiées au format RFC 850. Cette information est traitée comme une demande de suppression : une fois le délai de suppression arrivé à expiration, la page disparaît des résultats de recherche sous 24 heures environ. Toutefois, pour que cette balise fonctionne correctement, elle doit déjà être présente lors de la première exploration de l'article.

Utiliser des spécifications d'en-tête HTTP

Vous pouvez également inclure des instructions destinées aux robots dans l'en-tête HTTP. Pour de plus amples informations, veuillez consulter l'article des Développeurs Google consacré aux spécifications d'en-tête HTTP.