Googlebot

Googlebot est notre robot d'exploration ("spider" en anglais). Lors de l'exploration, Googlebot détecte de nouvelles pages et des pages mises à jour à ajouter dans l'index Google.

Grâce à un gigantesque réseau d'ordinateurs, nous sommes en mesure d'extraire (ou "explorer") des milliards de pages Web. Le processus de Googlebot est basé sur des algorithmes ; nos programmes informatiques déterminent les sites à explorer, la fréquence d'exploration et le nombre de pages à extraire de chaque site.

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, en raison de retards sur le réseau, il est possible que cette fréquence soit légèrement supérieure sur de courtes périodes.

Googlebot est conçu pour être réparti sur plusieurs machines pour améliorer les performances et évoluer avec la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites à indexer sur le réseau. Par conséquent, vos fichiers journaux peuvent indiquer des visites de plusieurs machines sur google.com, toutes avec le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Demandez à ce que la vitesse d'exploration soit modifiée.

Comment empêcher Googlebot d'explorer votre site ?

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu'un internaute clique sur un lien de votre serveur "secret" vers un autre serveur Web, votre URL "secrète" peut s'afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu'un publie un lien incorrect vers votre site ou ne met pas à jour les liens suite à des modifications sur votre serveur, Googlebot essaie de télécharger ces liens incorrects.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. Assurez-vous de bien comprendre les différentes options : vous pouvez empêcher Googlebot d'explorer une page, l'empêcher d'indexer une page ou bien rendre une page complètement inaccessible, que ce soit par un robot d'exploration ou un utilisateur.

Problèmes avec les spammeurs et les autres user-agents

Les adresses IP utilisées par Googlebot changent de temps en temps. Googlebot s'identifie avec une chaîne de user-agent. Or, comme cette dernière peut être falsifiée, le meilleur moyen d'identifier les accès de Googlebot est d'utiliser une résolution DNS inverse.

Googlebot, comme tous les robots d'exploration sérieux, respecte les directives du fichier robots.txt. En revanche, certains spammeurs ou certaines personnes mal intentionnées ne le font pas. Nous signaler du spam

Nous disposons de plusieurs autres user-agents, comme Feedfetcher (user-agent Feedfetcher-Google). Les demandes Feedfetcher sont déclenchées par des internautes qui ont ajouté des flux à leur page d'accueil Google, et non par des robots d'exploration automatisés. Feedfetcher ne suit donc pas les consignes du fichier robots.txt. Vous pouvez empêcher Feedfetcher d'explorer votre site en configurant votre serveur de manière à renvoyer un message d'erreur 404, 410 ou autre au user-agent Feedfetcher-Google. En savoir plus sur Feedfetcher

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?