Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé

Le nombre d'URL détectées par Googlebot sur votre site est extrêmement élevé. Googlebot risque d'explorer inutilement un grand nombre d'URL distinctes, pointant vers des contenus identiques ou similaires, ou bien d'explorer des pages non souhaitées de votre site. Dans ce cas, il est possible que Googlebot utilise beaucoup plus de bande passante que nécessaire ou ne parvienne pas à indexer tout le contenu de votre site.

Causes les plus fréquentes à l'origine de ce problème
  • Paramètres problématiques dans l'URL. Les identifiants de session ou les méthodes de tri, par exemple, peuvent créer une quantité considérable de doublons et augmenter le nombre d'URL. De la même manière, un calendrier généré de façon dynamique peut créer des liens vers des dates ultérieures et antérieures sans appliquer de limitation aux dates de début et de fin.
  • Filtrage additif d'un groupe d'éléments. De nombreux sites peuvent fournir des vues différentes du même groupe d'éléments ou de résultats de recherche. Lorsque vous combinez des filtres (par exemple, vous recherchez des hôtels qui sont sur la plage, acceptent les animaux ET ont un centre de remise en forme), il est possible que vous obteniez une liste très longue d'URL en majorité redondantes.
  • Génération dynamique de documents à partir de compteurs, d'horodatages ou de publicités
  • Liens relatifs rompus. Les liens relatifs rompus sont souvent à l'origine des espaces infinis. Ce problème survient généralement à cause de portions de chemin d'accès répétées. Exemple :
    http://www.example.com/index.shtml/discuter/catégorie/école/061121/html/entretien/catégorie/santé/070223/html/catégorie/commerce/070302/html/catégorie/communauté/070413/html/FAQ.htm
Solutions permettant de résoudre ce problème

Pour éviter tout problème au niveau de la structure des URL, nous vous recommandons de suivre les conseils ci-après :

  • Lorsque cela est possible, réduisez la longueur de vos URL en supprimant les paramètres superflus. Utilisez l'outil Gestion des paramètres pour préciser les paramètres d'URL que Google peut ignorer en toute sécurité. Veillez ensuite à utiliser ces URL nettoyées pour tous les liens internes. Essayez de rediriger les URL démesurément longues vers leurs versions nettoyées ou d'utiliser l'élément de lien rel="canonical" pour spécifier l'URL canonique plus courte à utiliser.
  • Évitez autant que possible d'insérer des identifiants de session dans vos URL. Remplacez-les par des cookies. Pour plus d'informations, consultez nos consignes aux webmasters.
  • Si votre site dispose d'un calendrier infini, ajoutez l'attribut nofollow aux liens qui mènent vers des futures pages de calendrier créées de façon dynamique.
  • Vérifiez que votre site ne comporte aucun lien relatif rompu.
  • Si aucune des solutions ci-dessus n'est possible, essayez d'utiliser un fichier robots.txt pour empêcher Googlebot d'accéder aux URL problématiques. De manière générale, nous vous recommandons de bloquer les URL dynamiques, telles que les URL générant des résultats de recherche ou créant des espaces infinis, comme les calendriers. L'utilisation de caractères génériques dans votre fichier robots.txt vous permettra de bloquer rapidement un nombre important d'URL.
Ces informations vous-ont elles été utiles ?
Comment pouvons-nous l'améliorer ?