Maintenir une structure d'URL simple

La structure des URL d'un site doit être aussi simple que possible. Organisez votre contenu de manière à donner aux URL une structure logique et facile à comprendre. Remplacez, si possible, les ID trop longs par des termes compréhensibles. Par exemple, si vous recherchez des informations concernant l'aviation, une URL de type http://fr.wikipedia.org/wiki/Aviation vous incitera à cliquer sur ce lien. Une URL telle que http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1, n'est pas aussi attrayante pour les internautes.

Pensez à utiliser la ponctuation dans vos URL. L'URL http://www.example.com/robe-verte.html est beaucoup plus utile pour nous que http://www.example.com/robeverte.html. Nous vous recommandons d'utiliser des traits d'union (-) au lieu des traits de soulignement (_) dans vos URL.

Les URL trop complexes, notamment celles qui contiennent de nombreux paramètres, peuvent gêner l'exploration en créant inutilement un nombre élevé d'URL qui renvoient vers des contenus identiques ou similaires sur votre site. Dans ce cas, il est possible que Googlebot utilise beaucoup plus de bande passante que nécessaire ou ne parvienne pas à indexer tout le contenu de votre site.

Causes les plus fréquentes à l'origine de ce problème

La présence d'un nombre trop élevé d'URL peut provenir de divers facteurs, notamment les éléments suivants :

  • Filtrage additif d'un groupe d'éléments : de nombreux sites peuvent fournir des vues différentes du même groupe d'éléments ou de résultats de recherche, ce qui permet souvent à l'utilisateur de filtrer cet ensemble en utilisant des critères définis (par exemple : afficher les hôtels en bord de mer). Lorsque l'application de plusieurs filtres est possible (par exemple, hôtels en bord de mer et disposant d'un centre de remise en forme), le nombre d'URL (affichages des données) croît significativement pour un même site. Or, la présence d'un nombre important de listes similaires entraîne des explorations redondantes, car une petite partie de ces listes suffirait pour que Googlebot atteigne tous les sites des hôtels proposés. Par exemple :
    • Hôtels à "petit prix" :
      http://www.example.com/hotel-resultats-recherche.jsp?Ne=292&N=461
    • Hôtels à "petit prix" en bord de mer :
      http://www.example.com/hotel-resultats-recherche.jsp?Ne=292&N=461+4294967240
    • Hôtels à "petit prix", en bord de mer et équipés d'un centre de remise en forme :
      http://www.example.com/hotel-resultats-recherche.jsp?Ne=292&N=461+4294967240+4294967270

  • Génération dynamique de documents : ce procédé peut entraîner de légères modifications dues aux compteurs, à l'horodatage ou aux publicités.

  • Paramètres problématiques dans l'URL : les identifiants de session, par exemple, peuvent créer une quantité considérable de doublons et augmenter le nombre d'URL.

  • Méthodes de tri : certains grands sites de vente en ligne proposent à leurs utilisateurs diverses méthodes pour trier les produits, multipliant ainsi le nombre d'URL.
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance
       &search_category=25
  • Paramètres d'URL inadaptés, comme les paramètres de sites référents. Par exemple :
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=
       OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessoires.

  • Problèmes de calendrier : un calendrier généré de manière dynamique peut créer des liens vers des dates ultérieures et antérieures sans appliquer de limitation sur les dates de début et de fin. Par exemple :
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan

  • Liens relatifs non fonctionnels : les liens relatifs non fonctionnels sont souvent à l'origine des espaces infinis. Ce problème survient généralement à cause de portions de chemin d'accès répétées. Par exemple :
    http://www.example.com/index.shtml/discussion/catégorie/école/061121/html/interview/
      catégorie/santé/070223/html/catégorie/secteur/070302/html/catégorie/communauté/070413/html/FAQ.htm



  •  
  •  
Solutions pour résoudre ce problème

Pour éviter tout problème au niveau de la structure des URL, nous vous recommandons de suivre les conseils ci-après :

  • Pensez à utiliser un fichier robots.txt pour bloquer l'accès de Googlebot à des URL problématiques. De manière générale, nous vous recommandons de bloquer les URL dynamiques, telles que les URL qui génèrent des résultats de recherche ou créent des espaces infinis, comme les calendriers. L'utilisation d'expressions rationnelles dans votre fichier robots.txt vous permet de bloquer facilement un nombre important d'URL.

  • Évitez autant que possible d'insérer des identifiants de session dans les URL. Remplacez-les par des cookies. Pour plus d'informations, consultez nos Consignes aux webmasters.

  • Dans la mesure du possible, réduisez la longueur de vos URL en supprimant les paramètres superflus.

  • Si votre site dispose d'un calendrier infini, ajoutez l'attribut nofollow aux liens qui mènent vers de futures pages de calendrier créées de façon dynamique.

  • Vérifiez que votre site ne comporte aucun lien relatif non fonctionnel.