Utiliser des robots pour bloquer Google Actualités

Nous sommes conscients du fait que les agences de presse publient un volume important de contenus et que tous ne peuvent pas figurer dans Google Actualités. Vous pouvez empêcher l'indexation de certaines parties de votre site par nos robots d'exploration Web, en créant un fichier robots.txt, des balises Meta ou des spécifications d'en-tête HTTP. Google Actualités utilise le même robot d'exploration que la Recherche sur le Web Google : Googlebot nouvelle fenêtre.

Si vous préférez que votre site soit exclu de Google Actualités, mais qu'il continue d'apparaître dans les résultats de recherche Web, Google Actualités tiendra compte d'une entrée dans le fichier robots.txt pour Googlebot-News si celle-ci est plus restrictive que l'entrée pour Googlebot. Autrement dit :

  • Si vous bloquez l'accès à Googlebot-News, nous n'indexons pas votre site dans Google Actualités.
  • Si vous bloquez l'accès à Googlebot, nous n'indexons pas votre site dans Google Actualités ou dans la Recherche sur le Web.

Création d'un fichier robots.txt

L'utilisation d'un fichier robots.txt vous permet de mieux contrôler ce que Google indexe sur votre site. Pour plus de détails sur la création et la gestion de fichiers robots.txt, consultez le Centre d'aide des Outils pour les webmasters nouvelle fenêtre .

Remarque :

  • Pour empêcher l'indexation de votre site par Google Actualités, bloquez l'accès à Googlebot-News à l'aide d'un fichier robots.txt.
  • Pour empêcher l'indexation de votre site par Google Actualités et la Recherche sur le Web Google, bloquez l'accès à Googlebot à l'aide d'un fichier robots.txt.

Faites en sorte que notre robot d'exploration puisse accéder à votre fichier robots.txt. Ainsi, nous pouvons savoir si vous souhaitez que certaines rubriques de votre site ne fassent pas l'objet d'une exploration.

Créer une balise Meta

Plutôt que d'utiliser un fichier robots.txt pour empêcher l'exploration de vos pages, vous pouvez ajouter une balise Meta dans le code de la page HTML que vous ne souhaitez pas voir indexée par les robots. Ce standard est décrit dans notre Centre d'aide des Outils pour les webmasters nouvelle fenêtre.

Remarque :

  • Pour empêcher Google Actualités d'indexer certains articles de votre site, bloquez l'accès à Googlebot-News à l'aide d'une balise Meta :

    <meta name="Googlebot-News" content="noindex, nofollow">

  • Pour empêcher Google Actualités et la Recherche sur le Web Google d'indexer certains articles de votre site, bloquez l'accès à Googlebot à l'aide d'une balise Meta :

    <meta name="Googlebot" content="noindex, nofollow">

  • Pour empêcher tous les robots d'indexer certains articles de votre site, bloquez l'accès à l'aide de la balise Meta suivante :

    <meta name="robots" content="noindex, nofollow">

  • Pour empêcher les robots d'indexer les images d'un article spécifique, bloquez l'accès à l'aide de la balise Meta suivante :

    <meta name="robots" content="noimageindex">

  • Pour nous signaler qu'un article arrivera à expiration à une date donnée et qu'il faudra alors le supprimer de l'index de Google, utilisez la balise suivante :

    <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

    La date et l'heure doivent être indiquées au format RFC 850 nouvelle fenêtre. Cette information est traitée comme une demande de suppression : une fois le délai de suppression arrivé à expiration, la page disparaît des résultats de recherche sous 24 heures environ. Toutefois, pour que cette balise fonctionne correctement, elle doit déjà être présente lors de la première exploration de l'article.

Utilisation de spécifications d'en-tête HTTP

Vous pouvez également indiquer des instructions destinées aux robots dans l'en-tête HTTP. Pour en savoir plus, consultez l'article Google Developers consacré aux spécifications d'en-tête HTTP nouvelle fenêtre.