Googlebot

Googlebot est le nom générique des deux types de robots d'exploration de Google :

Googlebot Smartphone : un robot d'exploration pour mobile qui simule un utilisateur sur un appareil mobile.
Googlebot Desktop : un robot d'exploration pour ordinateur qui simule un utilisateur sur ordinateur.

Pour identifier le sous-type Googlebot, consultez l'en-tête de requête HTTP user-agent dans la requête. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (version pour ordinateur ou pour mobile).

Pour la plupart des sites, Google indexe principalement la version mobile du contenu. Par conséquent, la plupart des demandes d'exploration Googlebot est traitée à l'aide du robot pour mobile, tandis qu'une minorité est traitée par le robot pour ordinateur.

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes.

Googlebot est conçu pour être exécuté simultanément sur des milliers de machines afin d'améliorer les performances et de s'adapter à la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites qu'ils peuvent être amenés à explorer. Par conséquent, vos journaux peuvent indiquer des visites provenant de plusieurs adresses IP, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez réduire la vitesse d'exploration.

Googlebot explore principalement à partir d'adresses IP aux États-Unis. Si Googlebot détecte qu'un site bloque les requêtes provenant des États-Unis, il est susceptible de tenter d'explorer les URL à partir d'adresses IP situées dans d'autres pays. La liste des blocs d'adresses IP actuellement utilisés par Googlebot est disponible au format JSON.

Googlebot explore les pages via HTTP/1.1 et HTTP/2, si celui-ci est pris en charge par le site. La version du protocole utilisée pour explorer votre site n'a pas d'impact sur le classement. Toutefois, l'exploration via HTTP/2 peut permettre d'économiser des ressources de calcul (par exemple, le processeur et la mémoire RAM) pour votre site et Googlebot.
Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Googlebot tente d'explorer votre site via HTTP/2. En cas d'échec, vous pouvez envoyer un message à l'équipe Googlebot (notez toutefois que cette solution est temporaire).

Googlebot peut explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible. Chaque ressource référencée dans le code HTML (CSS ou JavaScript, par exemple) est récupérée séparément, et chaque extraction est soumise à la même limite de taille de fichier. Au-delà des 15 premiers Mo de fichier, Googlebot arrête l'exploration et ne prend en compte que les 15 premiers Mo pour l'indexation. La taille maximale de fichier est appliquée aux données non compressées. D'autres robots d'exploration Google, par exemple Googlebot Video et Googlebot Image, peuvent être soumis à des limites différentes.

Lors de l'exploration à partir d'adresses IP situées aux États-Unis, le fuseau horaire de Googlebot est l'heure du Pacifique.

Empêcher Googlebot d'accéder à votre site

Il est quasiment impossible de garder un site secret en évitant de publier des liens qui pointent vers celui-ci. Par exemple, dès qu'un internaute clique sur un lien de votre site "secret" vers un autre site, l'URL de votre site "secret" peut apparaître dans la balise de provenance, puis être stockée et publiée par l'autre site dans un fichier journal.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. Assurez-vous de bien comprendre les différentes options : vous pouvez empêcher Googlebot d'explorer une page, l'empêcher d'indexer une page ou bien rendre une page complètement inaccessible, que ce soit par un robot d'exploration ou un utilisateur.

Validation de Googlebot

Avant de bloquer Googlebot, sachez que l'en-tête de requête HTTP user-agent utilisé par Googlebot est souvent falsifié (spoofing) par d'autres robots d'exploration. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inverse au niveau de l'adresse IP source de la requête ou de vérifier que l'adresse IP source fait partie des plages d'adresses IP de Googlebot.