Recherche
Effacer la recherche
Fermer la recherche
Applications Google
Menu principal

Googlebot

Googlebot est notre robot d'exploration ("spider" en anglais). Lors de l'exploration, Googlebot détecte de nouvelles pages et des pages mises à jour à ajouter dans l'index Google.

Grâce à un gigantesque réseau d'ordinateurs, nous sommes en mesure d'extraire (ou "explorer") des milliards de pages Web. Le processus de Googlebot est basé sur des algorithmes ; nos programmes informatiques déterminent les sites à explorer, la fréquence d'exploration et le nombre de pages à extraire de chaque site.

Le processus d'exploration de Googlebot consiste dans un premier temps à établir une liste des URL de pages Web, générée à partir des explorations précédentes et auxquelles s'ajoutent les données sitemap fournies par les webmasters. Au cours de sa visite, Googlebot détecte les liens SRC et HREF qui figurent sur chacune des pages et les ajoute à sa liste de pages à explorer. Les nouveaux sites, les modifications de sites existants et les liens non fonctionnels sont répertoriés et utilisés pour mettre à jour l'index Google.

Pour les webmasters : Googlebot et votre site

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, en raison de retards sur le réseau, il est possible que cette fréquence soit légèrement supérieure sur de courtes périodes.

Googlebot est conçu pour être réparti sur plusieurs machines pour améliorer les performances et évoluer avec la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites à indexer sur le réseau. Par conséquent, vos fichiers journaux peuvent indiquer des visites de plusieurs machines sur google.com, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Demandez à ce que la vitesse d'exploration soit modifiée.

Comment empêcher Googlebot d'explorer votre site ?

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut s'afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaie de télécharger ces liens incorrects.

Pour empêcher Googlebot d'explorer votre site, plusieurs options s'offrent à vous, comme l'utilisation d'un fichier robots.txt pour bloquer l'accès aux fichiers et aux répertoires sur votre serveur.

Une fois que vous avez créé votre fichier robot.txt, vous devez patienter un peu, le temps que Googlebot détecte vos modifications. Si Googlebot continue d'explorer les pages bloquées dans votre fichier robot.txt, vérifiez que celui-ci est placé au bon endroit. Il doit se trouver dans le répertoire racine du serveur, comme www.example.com/robots.txt. Il est inutile de placer le fichier dans un sous-répertoire.

Si vous souhaitez seulement éviter les messages d'erreur du type "fichier introuvable" dans les fichiers journaux de votre serveur Web, vous pouvez créer un fichier vide intitulé "robot.txt". Pour empêcher Googlebot de suivre les liens qui se trouvent sur une page de votre site, utilisez la balise Meta "nofollow". Pour empêcher Googlebot de suivre un lien individuel, ajoutez l'attribut rel="nofollow" au lien.

Quelques conseils supplémentaires :

  • Vérifiez que votre fichier robots.txt fonctionne correctement. L'outil de test du fichier robots.txt sur la page URL bloquées vous explique en détail la manière dont Googlebot interprète le contenu de votre fichier robots.txt. Notre user-agent s'appelle (judicieusement) Googlebot.
  • L'outil Explorer comme Google de la Search Console vous permet de déterminer précisément comment Googlebot voit votre site. Il peut être très utile pour résoudre les problèmes liés au contenu de votre site ou à sa visibilité dans les résultats de recherche.

Comment garantir l'exploration de votre site ?

Googlebot détecte les sites en suivant les liens entre les pages. La page Erreurs d'exploration de la Search Console répertorie les problèmes rencontrés par Googlebot lors de l'exploration de votre site. Nous vous recommandons de vérifier régulièrement ces erreurs d'exploration afin d'identifier d'éventuels problèmes sur votre site.

Si votre fichier robots.txt fonctionne comme prévu, mais que votre site ne reçoit pas de trafic, plusieurs raisons peuvent expliquer pourquoi votre contenu n'est pas bien placé dans les résultats de recherche.

Problèmes avec les spammeurs et les autres user-agents

Les adresses IP utilisées par Googlebot changent de temps en temps. Le meilleur moyen d'identifier les accès de Googlebot est d'utiliser le user-agent (Googlebot). Grâce à la résolution DNS inverse, vous pouvez vérifier que le robot qui accède à votre serveur est bien Googlebot.

Googlebot, comme tous les robots d'exploration sérieux, respecte les directives du fichier robots.txt. En revanche, certains spammeurs ou certaines personnes mal intentionnées ne le font pas. Nous signaler du spam

Nous disposons de plusieurs autres user-agents, comme Feedfetcher (user-agent Feedfetcher-Google). Les demandes Feedfetcher sont déclenchées par des internautes qui ont ajouté des flux à leur page d'accueil Google, et non par des robots d'exploration automatisés. Feedfetcher ne suit donc pas les consignes du fichier robots.txt. Vous pouvez empêcher Feedfetcher d'explorer votre site en configurant votre serveur de manière à renvoyer un message d'erreur 404, 410 ou autre au user-agent Feedfetcher-Google. En savoir plus sur Feedfetcher

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?