Recherche Images Maps Play YouTube Actualités Gmail Drive Plus »
Connexion

En savoir plus

Optimiser votre site

Utilisation de robots pour bloquer Google Actualités

Nous sommes conscients du fait que les agences de presse publient un volume important de contenus et que tous ne peuvent pas figurer dans Google Actualités. Vous pouvez empêcher l'indexation de certaines parties de votre site par nos robots d'exploration Web, en créant un fichier robots.txt, des balises Meta, ou des spécifications d'en-tête HTTP. Google Actualités utilise le même robot d'exploration que la Recherche sur le Web Google : Googlebot nouvelle fenêtre.

Si vous préférez que votre site soit exclu de Google Actualités, mais qu'il continue d'apparaître dans les résultats de recherche Web, Google Actualités tiendra compte d'une entrée dans le fichier robots.txt pour Googlebot-News si celle-ci est plus restrictive que l'entrée pour Googlebot. Autrement dit :

  • Si vous bloquez l'accès à Googlebot-News, nous n'indexons pas votre site dans Google Actualités.
  • Si vous bloquez l'accès à Googlebot, nous n'indexons pas votre site dans Google Actualités ou dans la Recherche sur le Web.

Création d'un fichier robots.txt

L'utilisation d'un fichier robots.txt vous permet de mieux contrôler ce que Google indexe sur votre site. Vous trouverez un guide complet sur la création et la gestion des fichiers robots.txt dans le Centre d'aide pour les webmastersnouvelle fenêtre.

Faites en sorte que notre robot d'exploration puisse accéder à votre fichier robots.txt. Ainsi, nous pouvons savoir si vous souhaitez que certaines sections de votre site ne fassent pas l'objet d'une exploration.

Création d'une balise Meta

Plutôt que d'utiliser un fichier robots.txt pour empêcher l'exploration de vos pages, vous pouvez ajouter une balise Meta dans le code de la page HTML que vous ne souhaitez pas voir indexée par les robots. Cette norme est décrite dans le Centre d'aide pour les webmastersnouvelle fenêtre.

Si vous souhaitez que la balise Meta s'applique uniquement à la page d'accueil, aux pages thématiques et aux pages d'articles Google Actualités, utilisez Googlebot-News plutôt que Googlebot. Pour chaque instruction, Google Actualités suivra le plus restrictif des deux, Googlebot ou Googlebot-News.

  • Pour empêcher tous les robots d'indexer l'une des pages de votre site, vous devez placer la balise Meta suivante dans la section <head> de votre page :

    <meta name="robots" content="noindex, nofollow">

  • Pour permettre à d'autres robots d'indexer la page tout en bloquant le robot de Google, utilisez la balise suivante :

    <meta name="googlebot" content="noindex, nofollow">

  • Pour permettre à tous les robots d'indexer la page tout en leur interdisant de suivre les liens sortants, utilisez la balise suivante :

    <meta name="robots" content="nofollow">

  • Pour permettre à tous les robots d'indexer la page tout en leur interdisant d'indexer les images qu'elle contient, utilisez la balise suivante :

    <meta name="robots" content="noimageindex">

  • Pour nous signaler qu'un article arrive à expiration à une date donnée et qu'il sera alors nécessaire de le supprimer de l'index de Google, utilisez la balise suivante :

    <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

    La date et l'heure doivent être indiquées au format RFC 850 nouvelle fenêtre. Cette information est traitée comme une demande de suppression : une fois le délai de suppression arrivé à expiration, la page disparaît des résultats de recherche sous 24 heures environ. Toutefois, pour que cette balise fonctionne correctement, elle doit déjà être présente lors de la première exploration de l'article.

Utilisation de spécifications d'en-tête HTTP

Vous pouvez également indiquer des instructions destinées aux robots dans l'en-tête HTTP. Pour en savoir plus, consultez l'article destiné aux développeurs Google et consacré aux spécifications d'en-tête HTTPnouvelle fenêtre.

Votre avis nous intéresse ! - Merci de répondre à cinq questions brèves sur notre centre d'aide