Regrouper des URL en double

Définir une page canonique pour des pages similaires ou en double

Récapitulatif

Si l'une des pages de votre site est accessible via plusieurs URL, ou si différentes pages de votre site présentent un contenu similaire (par exemple, une page avec une version mobile et une version classique), vous devez indiquer explicitement à Google quelle est l'URL canonique pour ces pages, autrement dit celle qui fait autorité, faute de quoi Google choisira la page canonique à votre place ou considérera toutes les pages similaires égales : cela pourrait entraîner un comportement indésirable, comme l'explique la section suivante.

Notez que même si nous vous recommandons de définir une page canonique pour les URL ou les versions en double, il se peut que nous utilisions un algorithme pour choisir une autre page comme page canonique, pour diverses raisons, comme les performances ou le contenu.

Pourquoi aurais-je des pages similaires ou en double ?

Il existe des raisons valables qui peuvent expliquer votre site posséde plusieurs URL dirigeant vers la même page, ou des pages en double ou très similaires avec des URL différentes. Voici les raisons les plus courantes :

  • Pour assurer la compatibilité avec plusieurs types d'appareils :
    https://example.com/actualités/koala-déchaîné
    https://m.example.com/actualités/koala-déchaîné
    https://amp.example.com/actualités/koala-déchaîné
    
  • Pour créer des URL dynamiques pour des éléments comme les paramètres de recherche ou les identifiants de session :
    https://www.example.com/products?category=robes&color=vert
    https://example.com/robes/cocktail?gclid=ABCD
    https://www.example.com/robes/vert/robeverte.html
  • Si votre système de blog enregistre automatiquement plusieurs URL lorsque vous placez le même article dans plusieurs rubriques :
    https://blog.example.com/robes/très-belles-robes-vertes/
    https://blog.example.com/vêtements-verts/très-belles-robes-vertes/
  • Si votre serveur est configuré pour diffuser le même contenu pour les variantes www/non-www et HTTP/HTTPS :
    http://example.com/robes-vertes
    https://example.com/robes-vertes
    http://www.example.com/robes-vertes
    
  • Si le contenu de votre blog destiné à la syndication sur d'autres sites est répliqué partiellement ou intégralement sur ces domaines :
    https://news.example.com/robes-vertes-pour-tous-les-jours-155672.html (article syndiqué) https://blog.example.com/très-belles-robes-vertes/3245/ (article d'origine)
Détails techniques
Les détails suivants sur la mise en forme canonique ne vous seront sans doute pas indispensables, mais si vous êtes curieux, ils peuvent vous intéresser.
Lorsque Googlebot indexe un site, il tente de déterminer les thèmes abordés dans chaque page. S'il trouve plusieurs pages d'un même site qui semblent traiter le même thème, il choisit la page qui lui paraît la plus complète et utile, et la définit comme page canonique. La page canonique sera celle explorée le plus régulièrement ; les doublons seront analysés moins fréquemment afin de préserver le budget d'exploration de votre site. Ainsi, si vous choisissez une autre page canonique sans l'indiquer à Googlebot, il se peut que vous perdiez inutilement du temps à mettre à jour une page que Googlebot n'indexera pas souvent ou n'affichera pas dans les résultats de recherche.
Google utilise les pages canoniques de votre site comme référence de contenu et de qualité. Le résultat de recherche Google redirige généralement vers la page canonique, sauf si l'un des doublons répond plus précisément à la requête d'un utilisateur. Par exemple, le résultat de recherche redirigera probablement vers la page mobile si l'internaute utilise un appareil mobile, même si la page canonique est la version classique.
Google choisit la page canonique en fonction d'un certain nombre de facteurs (ou indicateurs), à savoir : si la page est diffusée via le protocole HTTP ou HTTPS ; le domaine favori indiqué par l'internaute ; la qualité de la page ; la présence de l'URL dans un sitemap ; et tout attribut "rel=canonical". Vous ne pouvez pas forcer Google à choisir une page canonique spécifique, mais vous pouvez influencer son choix à l'aide de l'une ou plusieurs des techniques présentées ici.

Pourquoi c'est important

Il est utile de choisir explicitement une page canonique parmi un ensemble de pages en double ou similaires pour plusieurs raisons :

  • Pour définir l'URL que vous souhaitez voir affichée dans les résultats de recherche. Vous préférez peut-être que les internautes accèdent à votre page de produits présentant vos robes vertes via https://www.example.com/robes/vert/robeverte.html plutôt que https://example.com/robes/cocktail?gclid=ABCD.
  • Pour regrouper des indicateurs de liens pour les pages similaires ou en double. Cela permet aux moteurs de recherche de regrouper les informations dont ils disposent concernant les URL individuelles (comme les liens vers ces dernières) en une seule URL favorite. Cela signifie que les liens d'autres sites vers http://example.com/robes/cocktail?gclid=ABCD sont regroupés avec les liens vers https://www.example.com/robes/vert/robeverte.html.
  • Pour simplifier le suivi des statistiques d'un seul produit/sujet. Avec différentes URL, il est plus difficile d'obtenir des données regroupées pour un contenu spécifique.
  • Pour gérer le contenu syndiqué. Si vous syndiquez votre contenu pour le publier sur d'autres domaines, il vous faut regrouper le classement des pages vers votre URL favorite.
  • Pour éviter de perdre du temps à explorer des pages en double. Pour que Googlebot exploite au mieux votre site, il est préférable de passer du temps à explorer les nouvelles pages (ou les pages mises à jour) de votre site, plutôt que d'explorer les versions classique et mobile des mêmes pages.

Quelles sont les URL que Google considère comme canoniques (ou en double) ?

Utilisez le rapport sur l'état de l'indexation pour déterminer quelles URL sont considérées comme canoniques ou en double. Les pages en double seront marquées comme exclues, les pages canoniques comme valides.

Recherchez les URL valides portant la mention "Indexée ; pensez à la désigner en tant que page canonique" pour voir les pages que vous devriez envisager de désigner explicitement comme canoniques.

Recherchez les URL exclues portant la mention "Google n'a pas choisi la même page canonique que l'utilisateur" pour voir quelles pages d'un ensemble Google a choisies par rapport à vous.

Définir une page canonique

En fonction de votre utilisation, il existe plusieurs façons de définir la page canonique d'un ensemble en double :

Méthode Description
Consignes générales Suivez ces consignes pour toutes les méthodes de mise en forme canonique.
Définir le domaine favori

Utilisez la Search Console pour définir les URL canoniques d'un domaine par rapport à leurs équivalents sur un autre domaine : par exemple, example.com plutôt que www.example.com. Utilisez cette méthode uniquement lorsque vous avez deux sites similaires qui diffèrent uniquement par leur sous-domaine. Ne l'utilisez pas pour les sites avec des variantes HTTP/HTTPS.

Avantages :

  • Méthode très facile à mettre en œuvre, à gérer et à modifier
  • À utiliser si vous avez des sites identiques sur différents domaines

Inconvénients :

  • Fonctionne uniquement pour la précision des domaines ; les pages doivent avoir des chemins et des noms identiques pour être considérées comme des doublons
  • Permet uniquement une mise en correspondance de deux pages pour les pages qui ont le même nom de chemin
Balise <link> rel=canonical

Ajoutez une balise <link> au code de toutes les pages en double, en dirigeant vers la page canonique.

Avantages :

  • Peut mettre en correspondance un nombre infini de pages en double

Inconvénients :

  • Peut augmenter la taille de la page
  • Gestion de la mise en correspondance complexe sur les sites volumineux ou ceux dont les URL changent souvent
  • Fonctionne uniquement pour les pages HTML, pas pour les fichiers comme les PDF. Dans ce cas, vous pouvez utiliser l'en-tête HTTP rel=canonical
En-tête HTTP rel=canonical

Envoyez un en-tête rel=canonical dans la réponse de votre page.

Avantages :

  • N'augmente pas la taille de la page
  • Peut mettre en correspondance un nombre infini de pages en double

Inconvénients :

  • Gestion de la mise en correspondance complexe sur les sites volumineux ou ceux dont les URL changent souvent
Sitemap

Définissez vos pages canoniques dans un sitemap.

Avantages :

  • Facile à mettre en place et à gérer, surtout sur des sites volumineux

Inconvénients :

  • Googlebot devra malgré tout trouver les pages en double associées à toutes les pages canoniques que vous désignez dans le sitemap
  • Indicateur moins puissant pour Googlebot que la technique de mise en correspondance rel=canonical
Redirection 301 Utilisez les redirections 301 pour indiquer à Googlebot qu'une URL de redirection constitue une meilleure version qu'une URL donnée. Utilisez cette méthode uniquement lorsque vous abandonnez une page en double.
Variante AMP Si l'une de vos variantes est une page AMP, vous devrez suivre les consignes AMP pour indiquer la page canonique et la variante AMP.

 

Nous vous encourageons à utiliser l'une de ces méthodes, mais aucune d'entre elles n'est obligatoire. Si vous n'indiquez aucune URL canonique, nous désignerons celle que nous pensons être la meilleure version ou URL.

Consignes générales

Pour toutes les méthodes de mise en forme canonique, suivez ces consignes générales.

Consignes générales
  • N'utilisez pas le fichier robots.txt pour la mise en forme canonique.
  • N'utilisez pas l'outil de demande de suppression d'URL pour la mise en forme canonique, car il supprime toutes les versions d'une URL de la recherche.
  • Ne définissez pas différentes URL canoniques pour la même page, que vous utilisiez la même méthode ou non (par exemple, une URL dans un sitemap et une URL différente pour la même page avec l'attribut rel="canonical").
  • N'utilisez pas la balise noindex, car elle empêche la sélection d'une page canonique. Cette consigne s'applique à l'exclusion de la page d'un index, et non au choix d'une page canonique. 
  • Ne définissez pas une page canonique si vous utilisez des balises "hreflang". Définissez une page canonique dans la même langue. S'il n'existe aucune page canonique dans la même langue, choisissez la meilleure langue de substitution possible.

Préférer le HTTPS au HTTP pour les URL canoniques

Nous préférons définir une page HTTPS comme canonique plutôt que son équivalent HTTP, sauf en cas de problèmes ou d'indicateurs contradictoires. En voici quelques exemples :

  • La page HTTPS dispose d'un certificat SSL incorrect.
  • La page HTTPS contient des dépendances non sécurisées (autres que des images).
  • La page HTTPS redirige les internautes vers ou via une page HTTP.
  • La page HTTPS possède un lien rel="canonical" vers la page HTTP.

Bien que nos systèmes préfèrent les pages HTTPS aux pages HTTP par défaut, vous pouvez vous assurer de ce comportement en effectuant l'une des actions suivantes :

  • Ajoutez des redirections sur la page HTTP vers la page HTTPS.
  • Ajoutez un lien rel="canonical" sur la page HTTP vers la page HTTPS.
  • Mettez en œuvre le mécanisme HSTS.

Pour nous empêcher de définir à tort la page HTTP comme URL canonique, veillez à éviter les pratiques suivantes :

  • En raison des certificats SSL et des redirections HTTPS vers HTTP incorrects, nous préférons de beaucoup le protocole HTTP. La mise en œuvre du mécanisme HSTS ne saurait se substituer à cette nette préférence.
  • Inclure la page HTTP dans votre sitemap ou vos entrées "hreflang" plutôt que la version HTTPS.
  • Mettre en œuvre votre certificat SSL/TLS pour le mauvais hôte, par exemple afficher le certificat de www.example.com sur example.com.  Le certificat doit correspondre à l'URL exacte de votre site. Vous pouvez également utiliser un certificat générique adaptable à plusieurs sous-domaines d'un domaine.

Indiquer à Google d'ignorer les paramètres dynamiques

Utilisez la gestion des paramètres pour indiquer à Googlebot les paramètres à ignorer lors de l'exploration. Le fait d'ignorer certains paramètres peut réduire le contenu en double dans l'index Google et faciliter l'exploration de votre site. Si vous indiquez, par exemple, que le paramètre sessionid doit être ignoré, Googlebot considérera les deux URL suivantes comme des doublons :

  • https://www.example.com/robes/vert.php?sessionid=273749
  • https://www.example.com/robes/vert.php

Méthodes spécifiques

Choisissez l'une des méthodes suivantes pour définir une URL canonique pour les URL en double ou les pages en double/similaires.

Assurez-vous de suivre les consignes générales ci-dessus pour toutes les méthodes.

Définir un domaine favori

Utilisez la Search Console pour indiquer à Google la version de l'URL de votre site que vous préférez comme page canonique pour votre domaine :

  • https://www.exemple.com/
  • https://example.com

Si vous indiquez que votre domaine favori est https://example.com, Google traitera les URL ou les pages similaires sur www.example.com comme des doublons de pages sur example.com.

Pour en savoir plus, consultez la page Définir votre domaine favori.

Utiliser la balise link rel="canonical"

Vous pouvez utiliser une balise <link> dans l'en-tête de la page pour indiquer si une page est un doublon d'une autre page.

Admettons que vous voulez définir https://example.com/robes/robes-vertes comme l'URL canonique, même si plusieurs URL permettent d'accéder à ce contenu. Suivez ces étapes pour indiquer que cette URL est canonique :

  1. Balisez toutes les pages en double avec un élément link rel="canonical". Ajoutez un élément <link> avec l'attribut rel="canonical" à la section <head> des pages en double, redirigeant vers la page canonique, comme ceci :
    <link rel="canonical" href="https://example.com/robes/robes-vertes" />

  2. Si la page canonique possède une variante mobile, ajoutez-y une balise de lien rel="alternate" qui redirige vers la version mobile de la page :
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/robes/robes-vertes">

  3. Ajoutez des balises hreflang ou d'autres redirections appropriées pour la page.

Utilisez des chemins d'accès absolus plutôt que relatifs avec l'élément link rel="canonical".

Utilisez cette structure : https://www.example.com/robes/vert/robeverte.html.
N'utilisez pas celle-ci : /robes/vert/robeverte.html.
Utilisez l'en-tête HTTP rel="canonical".

Si vous pouvez configurer votre serveur, utilisez les en-têtes HTTP rel="canonical" (plutôt que des balises HTML) pour indiquer l'URL canonique de documents autres que HTML, comme des fichiers PDF.

Par exemple, si vous intégrez un fichier PDF dans plusieurs URL, vous pouvez renvoyer un en-tête HTTP rel="canonical" (tel que celui indiqué ci-dessous) pour les URL en double, afin d'indiquer à Googlebot quelle est l'URL canonique du fichier PDF :

Link: <http://www.example.com/téléchargements/livre-blanc.pdf>; rel="canonical"

Pour le moment, Google n'accepte cette méthode que pour les résultats de recherche sur le Web.

Utilisez des chemins d'accès absolus plutôt que relatifs avec l'élément link rel="canonical". Par exemple :
Utilisez cette structure : http://www.example.com/téléchargements/livre-blanc.pdf.
N'utilisez pas celle-ci : /téléchargements/livre-blanc.pdf.
Utiliser un sitemap

Choisissez une URL canonique pour chacune de vos pages et envoyez-les dans un sitemap. Toutes les pages répertoriées dans un sitemap sont suggérées en tant que pages canoniques ; Googlebot déterminera lesquelles sont en double, le cas échéant, en fonction de la similarité du contenu.

Nous ne garantissons pas que nous envisagerons de désigner les URL du sitemap comme des pages canoniques, mais c'est un moyen simple d'en définir pour un site volumineux. Par ailleurs, les sitemaps permettent d'indiquer facilement à Google les pages de votre site qui sont, pour vous, les plus importantes.

N'incluez pas de pages non canoniques dans un sitemap. Si vous utilisez un sitemap, indiquez uniquement des URL canoniques.

Utiliser des redirections 301 pour les URL obsolètes

Utilisez cette méthode lorsque vous souhaitez supprimer des pages en double en assurant une transition fluide.

Admettons qu'il est possible d'accéder à votre page de plusieurs manières :

  • https://example.com/accueil
  • https://home.example.com
  • https://www.exemple.com/

Choisissez votre URL canonique parmi ces URL et utilisez des redirections 301 pour envoyer le trafic des autres URL vers l'URL choisie. Une redirection 301 côté serveur est le meilleur moyen de vous assurer que les internautes et les moteurs de recherche sont redirigés vers la bonne page. Le code d'état 301 signifie que la page a été déplacée de manière définitive vers un autre emplacement.

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?