Googlebot est le robot d'exploration Web de Google ("spider" en anglais). Lors de l'exploration, le robot Googlebot recherche des pages mises à jour ou nouvelles à ajouter dans l'index Google.
Grâce à un gigantesque réseau d'ordinateurs, nous sommes en mesure d'extraire (ou explorer) des milliards de pages Web. Googlebot utilise un processus basé sur des algorithmes ; nos programmes informatiques déterminent les sites à explorer, la fréquence d'exploration et le nombre de pages à extraire de chaque site.
Dans un premier temps, Googlebot explore les URL de pages Web recueillies au cours d'explorations précédentes. À ces URL viennent s'ajouter les données Sitemap fournies par les webmasters. Au cours de sa visite, Googlebot détecte les liens SRC et HREF figurant sur chacune des pages et les ajoute à sa liste de pages à explorer. Les nouveaux sites, les modifications de sites existants et les liens rompus sont répertoriés et utilisés pour mettre à jour l'index Google.
Pour les webmasters : Googlebot et votre site
Comment Googlebot accède à votre site
Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, en raison de retards sur le réseau, il est possible que cette fréquence soit légèrement supérieure sur de courtes périodes. En général, Googlebot télécharge une seule copie de chaque page à la fois. Si vous remarquez que Googlebot télécharge une page plusieurs fois, c'est sans doute que le robot d'exploration a été arrêté, puis redémarré.
Googlebot est conçu pour être réparti sur plusieurs machines pour améliorer les performances et évoluer avec la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites à indexer sur le réseau. Par conséquent, vos fichiers journaux peuvent indiquer des visites de plusieurs machines sur google.com, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Demandez à ce que la vitesse d'exploration soit modifiée
Comment empêcher Googlebot d'explorer votre site
Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens pointant vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut apparaître dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens périmés ou rompus. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaiera de télécharger ces liens incorrects.
Pour empêcher Googlebot d'explorer votre site, plusieurs options s'offrent à vous, comme l'utilisation d'un fichier robots.txt pour bloquer l'accès aux fichiers et aux répertoires sur votre serveur.
Une fois que vous avez créé votre fichier robot.txt, vous devez patienter un peu, le temps que Googlebot détecte vos modifications. Si Googlebot continue d'explorer les pages bloquées dans votre fichier robot.txt, vérifiez que celui-ci est placé au bon endroit. Il doit se trouver dans le répertoire principal du serveur (par exemple, www.monhebergeur.fr/robots.txt). S'il se trouve dans un sous-répertoire, il sera inefficace.
Si vous souhaitez seulement éviter les messages d'erreur du type "fichier introuvable" dans les fichiers journaux de votre serveur Web, vous pouvez créer un fichier vide intitulé "robot.txt". Pour empêcher Googlebot de suivre les liens qui se trouvent sur une page de votre site, utilisez la balise Meta nofollow. Pour empêcher Googlebot de suivre un lien spécifique, ajoutez l'attribut rel="nofollow" à celui-ci.
Quelques conseils supplémentaires :
- Vérifiez que le fichier robots.txt fonctionne correctement. L'outil Test de robots.txt, disponible dans l'onglet URL bloquées (robots.txt) de la page Accès du robot d'exploration, vous permet de voir exactement comment Googlebot interprétera le contenu de votre fichier robots.txt. Le user-agent Google s'appelle (judicieusement)
Googlebot. - L'outil Afficher comme Google des outils pour les webmasters vous permet de déterminer précisément comment Googlebot voit votre site. Il peut être très utile pour résoudre les problèmes liés au contenu de votre site ou à son indexation dans les résultats de recherche.
Comment garantir l'exploration de votre site
Googlebot détecte les sites en suivant les liens entre les pages. La page Erreurs d'exploration des Outils pour les webmasters répertorie les problèmes rencontrés par Googlebot lors de l'exploration de votre site. Nous vous recommandons de vérifier régulièrement ces erreurs d'exploration afin d'identifier d'éventuels problèmes sur votre site.
Si vous souhaitez que le contenu de votre application AJAX apparaisse dans les résultats de recherche, nous vous recommandons de consulter notre guide expliquant comment faire en sorte que le contenu AJAX puisse être exploré et indexé.
Si votre fichier robots.txt fonctionne comme prévu et si votre site ne reçoit pas de trafic, plusieurs raisons peuvent expliquer pourquoi votre contenu n'est pas bien placé dans les résultats de recherche.
Problèmes avec les spammeurs et les autres user-agents
Les adresses IP utilisées par Googlebot changent régulièrement. Le meilleur moyen d'identifier les accès de Googlebot est d'utiliser le user-agent (Googlebot). Grâce à la résolution DNS inverse, vous pouvez vérifier que le robot accédant à votre serveur est bien Googlebot.
Googlebot, comme tous les robots d'exploration sérieux, respecte les directives du fichier robots.txt. En revanche, certains spammeurs ou personnes mal intentionnées ne le font pas. Signaler du spam à Google
Google dispose de plusieurs autres user-agents, comme Feedfetcher (user-agent Feedfetcher-Google). Les requêtes Feedfetcher étant déclenchées par des utilisateurs ayant ajouté des flux à leur page d'accueil Google ou à Google Reader, et non par des robots automatisés, Feedfetcher ne suit pas les consignes du fichier robots.txt. Vous pouvez empêcher Feedfetcher d'explorer votre site en configurant votre serveur de manière à renvoyer un message d'erreur 404, 410 ou autre au user-agent Feedfetcher-Google. En savoir plus sur Feedfetcher
