Contenu dupliqué

Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants. Exemples de contenu non malveillant :

  • forums de discussion pouvant générer à la fois des pages normales et des pages "raccourcies" destinées aux mobiles ;
  • articles en vente affichés ou liés via plusieurs URL distinctes ;
  • versions imprimables uniquement de pages Web.

Si votre site contient plusieurs pages dont le contenu est très similaire, vous pouvez indiquer à Google votre URL préférée de plusieurs façons. (C'est ce qu'on appelle la "canonicalisation".) En savoir plus sur la canonicalisation.

Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d'augmenter le trafic. Ce type de pratique trompeuse peut avoir des effets négatifs sur la navigation de l'internaute qui voit quasiment le même contenu se répéter dans un ensemble de résultats de recherche.

Google s'efforce d'indexer et d'afficher des pages contenant des informations distinctes. Avec ce filtrage, si votre site propose, par exemple, une version "ordinaire" et une version "imprimable" de chaque article et qu'aucune de ces deux versions n'est bloquée par une balise Meta noindex, nous choisissons l'une des deux pour l'inclure dans la liste. Dans les rares cas où nous estimons que du contenu en double est peut-être affiché dans le but de manipuler nos classements et de tromper nos utilisateurs, nous apportons également les ajustements appropriés dans l'indexation et le classement des sites impliqués. En conséquence, le classement du site peut être affecté, ou le site peut être retiré définitivement de l'index Google, auquel cas il n'apparaîtra plus dans les résultats de recherche.

Les mesures suivantes vous permettent de résoudre les problèmes de contenu en double de manière proactive et de vous assurer que les visiteurs accèdent au contenu que vous souhaitez leur présenter.

  • Utilisez des redirections 301 : si vous avez restructuré votre site, utilisez des redirections 301 ("RedirectPermanent") dans votre fichier .htaccess pour rediriger efficacement les internautes, Googlebot et d'autres robots d'exploration. Pour ce faire, utilisez un fichier .htaccess dans Apache, et la console d'administration dans IIS.

  • Soyez cohérent : soyez cohérent dans votre système de liens internes. Par exemple, n'établissez pas de lien vers http://www.example.com/page/, http://www.example.com/page ni http://www.example.com/page/index.htm.

  • Utilisez des domaines de premier niveau : pour nous aider à présenter la version la plus appropriée d'un document, utilisez dans la mesure du possible des domaines de premier niveau pour gérer du contenu spécifique à un pays donné. Nous pouvons supposer que le site http://www.example.de, par exemple, présente du contenu destiné à l'Allemagne, par rapport à http://www.example.com/de ou http://de.example.com.

  • Soyez prudent en syndiquant votre contenu : si vous publiez votre contenu sur d'autres sites, Google affichera systématiquement la version jugée la plus appropriée pour les internautes pour chaque recherche donnée, qui pourra correspondre ou non à celle que vous préférez. Cependant, il est utile de s'assurer que chaque site sur lequel votre contenu est syndiqué inclut un lien renvoyant vers votre article original. Vous pouvez également demander à ceux qui utilisent votre contenu syndiqué d'utiliser la balise Meta noindex pour empêcher les moteurs de recherche d'indexer leur version du contenu.

  • Utilisez les Outils pour les webmasters afin de nous indiquer le type d'indexation à privilégier pour votre site : vous pouvez spécifier à Google votre domaine favori (par exemple, http://www.example.com ou http://example.com).

  • Limitez les répétitions : par exemple, au lieu d'inclure un avis de copyright au bas de chaque page, insérez un bref récapitulatif, puis établissez un lien vers une page plus détaillée. Par ailleurs, vous pouvez utiliser l'outil de gestion des paramètres pour définir la manière dont Google doit traiter les paramètres d'URL.

  • Évitez la publication de pages incomplètes : les internautes n'apprécient pas les pages "vides", évitez donc les espaces réservés dans la mesure du possible. Par exemple, ne publiez pas de pages pour lesquelles vous ne disposez pas encore de contenu réel. Si vous créez des pages contenant des espaces réservés, utilisez la balise Meta noindex pour bloquer leur indexation.

  • Apprenez à maîtriser votre système de gestion du contenu : vérifiez que vous maîtrisez l'affichage du contenu sur votre site Web. Les blogs, forums et systèmes associés affichent souvent le même contenu dans des formats divers. Par exemple, un article de blog peut apparaître sur la page d'accueil d'un blog, dans une page d'archives et dans une autre page avec le même libellé.

  • Limitez les contenus similaires : si de nombreuses pages de votre site sont similaires, développez chacune d'entre elles ou regroupez-les pour n'en faire qu'une seule. Par exemple, si votre site de voyages présente des pages distinctes pour deux villes, mais que celles-ci comportent des informations identiques, regroupez les informations sur les deux villes sur une seule page ou développez chaque page afin qu'elles contiennent des informations bien différentes.

Il n'est pas recommandé de bloquer l'accès des robots d'exploration au contenu en double de votre site Web, que ce soit à l'aide d'un fichier robots.txt ou d'autres méthodes. Si les moteurs de recherche ne peuvent pas explorer les pages qui intègrent du contenu en double, ils sont incapables de détecter automatiquement que les URL pointent sur un contenu identique. Par conséquent, ils doivent traiter ces URL en tant que pages uniques et distinctes. Il est, au contraire, conseillé d'autoriser les moteurs de recherche à explorer ces URL, tout en marquant ces dernières comme étant dupliquées avec l'élément de lien rel="canonical", l'outil de gestion des paramètres d'URL, ou des redirections 301. Si nos robots passent trop de temps à explorer votre site Web à cause d'un contenu en double, vous pouvez également régler le paramètre de vitesse d'exploration dans les Outils pour les webmasters.

Le contenu en double n'entraîne pas de conséquences négatives particulières pour votre site sauf si l'objectif semble être de tromper et de manipuler les résultats des moteurs de recherche. En cas de problèmes de contenu en double, et si vous ne suivez pas les recommandations indiquées ci-dessus, nous nous chargeons de choisir la version du contenu à afficher dans nos résultats de recherche.

Cependant, si nous estimons qu'il s'agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, revoyez votre site. Si votre site a été retiré de nos résultats de recherche, consultez nos Consignes aux webmasters pour plus d'informations. Après avoir apporté les modifications nécessaires et vous être assuré que votre site est désormais conforme à nos recommandations, envoyez-le pour qu'il soit réexaminé.

Dans de rares cas, il est possible que notre algorithme choisisse une URL sur un site externe qui héberge votre contenu sans votre autorisation. Si vous pensez qu'un autre site ne respecte pas les règles relatives aux droits d'auteur, vous pouvez contacter l'hébergeur du site pour demander la suppression de votre contenu. Vous pouvez également demander à Google de supprimer de ses résultats de recherche la page portant atteinte aux droits d'auteur en envoyant une demande DMCA (Digital Millennium Copyright Act).