Robots d'exploration Google (user-agents)

Découvrez quels robots Google utilise pour explorer le Web

L'expression "robot d'exploration" désigne tout programme qui permet de détecter et d'explorer automatiquement des sites Web en suivant des liens d'une page à une autre. Notre robot d'exploration principal s'appelle Googlebot. Le tableau ci-après répertorie les caractéristiques des robots d'exploration Google classiques qui peuvent figurer dans les fichiers journaux de votre URL de provenance, ainsi que la manière dont ils doivent être indiqués dans le fichier robots.txt, dans les balises Meta pour les robots et dans les instructions HTTP X-Robots-Tag.

Dans le tableau suivant, le jeton user-agent est utilisé dans la ligne User-agent: du fichier robots.txt pour correspondre à ce robot d'exploration spécifique. Certains robots répondent à plusieurs jetons, comme indiqué dans le tableau : vous devez utiliser un seul jeton correspondant pour un robot d'exploration. Cette liste n'est pas complète, mais couvre la plupart des robots que vous pouvez voir sur votre site Web.

Ces valeurs peuvent faire l'objet de pratiques de spoofing. Pour vérifier que le visiteur est Googlebot, utilisez la résolution DNS inverse.
Robot d'exploration Jetons user-agent (utilisés dans le fichier robots.txt) Chaîne complète du user-agent (conformément aux fichiers journaux du site Web)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google

AdsBot Web pour mobile Android

(Vérifie la qualité des annonces sur les pages Web Android)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux ; Android 5.0 ; SM-G920A) AppleWebKit (KHTML, par exemple Gecko) Chrome Mobile Safari (compatible ; AdsBot-Google-Mobile ; +http://www.google.com/mobile/adsbot.html)

AdsBot Web pour mobile

(Vérifie la qualité des annonces sur les pages Web pour iPhone)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone ; CPU iPhone OS 9_1, par exemple Mac OS X) AppleWebKit/601.1.46 (KHTML, par exemple Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible ; AdsBot-Google-Mobile ; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Vérifie la qualité des annonces sur les pages Web pour ordinateur)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Google Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot Google Actualités
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Google Vidéos
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot

(Ordinateur)

  • Googlebot
  • Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, par exemple Gecko ; compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html) Safari/537.36

    ou (rarement utilisé) :
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(Smartphone)

  • Googlebot

Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

AdSense pour mobile
  • Mediapartners-Google
(différents types d'appareils mobiles) (compatible ; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html)

Applications mobiles Android

(Vérifie la qualité des annonces sur les pages d'applications Android. Respecte les règles des robots AdsBot-Google.)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

Les user-agents dans le fichier robots.txt

Lorsque plusieurs user-agents sont reconnus dans le fichier robots.txt, nous suivons le plus spécifique d'entre eux. Si vous souhaitez que tous nos robots d'exploration puissent explorer vos pages, vous n'avez pas besoin de fichier robots.txt. En revanche, si vous voulez bloquer ou autoriser l'accès de nos robots d'exploration à certains de vos contenus, vous pouvez indiquer Googlebot comme user-agent. Par exemple, si vous souhaitez que toutes vos pages s'affichent dans la recherche Google et que des annonces AdSense soient diffusées sur celles-ci, vous n'avez pas besoin de fichier robots.txt. De même, si vous souhaitez nous empêcher d'accéder à certaines pages, vous pouvez bloquer le user-agent Googlebot. Tous nos autres user-agents seront alors bloqués eux aussi.

Toutefois, vous pouvez contrôler l'exploration de vos pages de manière plus précise. Il est possible, par exemple, que vous souhaitiez que toutes vos pages s'affichent dans la recherche Google, mais que les images de votre répertoire personnel ne soient pas explorées. Dans ce cas, utilisez le fichier robots.txt pour interdire au user-agent Googlebot-image d'explorer les fichiers de votre répertoire /personnel (tout en autorisant Googlebot à explorer tous vos fichiers). Procédez comme suit :

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personnel
Prenons un autre exemple. Supposons que vous souhaitiez voir s'afficher des annonces sur l'ensemble de vos pages. Toutefois, vous ne voulez pas que ces pages s'affichent dans la recherche Google. En utilisant ces lignes de code, vous bloquez Googlebot, mais autorisez Mediapartners-Google :
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Les user-agents dans la balise Meta pour les robots

Certaines pages font appel à plusieurs balises Meta pour les robots afin d'indiquer les instructions destinées aux différents robots d'exploration :

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Dans cet exemple, nous utiliserons la somme des instructions d'exclusion et Googlebot suivra à la fois l'instruction noindex et l'instruction nofollow. En savoir plus sur la manière de contrôler l'exploration et l'indexation de votre site par nos services

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?