Contenu dupliqué

Nos données

Le contenu dupliqué génère des problèmes SEO qui pénalisent vos classements. Cela fait référence au contenu qui apparaît à plusieurs endroits sur un site. Le contenu dupliqué peut être à l’intérieur mais aussi à l’extérieur de votre site. En fait, il pose problème aux robots car il leur est impossible de déterminer quel contenu est le plus pertinent lorsqu’une requête est faite. En prenant l’expérience utilisateur en compte, les robots ne pourront pas afficher de pages multiples et seront ainsi forcés d’en choisir une qui semble être la meilleure. Cela entraîne une perte importante de résultats, pourtant pertinents, dans les résultats des moteurs de recherche et donc une perte de trafic. Le contenu dupliqué peut engendrer 3 types de problèmes:

  • une confusion entre les différentes versions à indexer
  • des difficultés à apposer les indicateurs du lien (autorité, trust, l’ancre de texte et le jus de référencement) à la bonne page ou à les partager entre les différentes versions
  • l’impossibilité de classer la bonne version pour les requêtes faites

Avec OnCrawl, vous pouvez facilement repérer les clusters de pages dupliquées ou presque dupliquées. Vous êtes également capable de voir si les canoniques sont associées, non associées ou tout simplement pas installées. Vous pouvez aussi filtrer les groupes par nombre de pages et similarité du contenu.

Cluster de pages contenu dupliqué

Lorsque vous cliquez sur un groupe spécifique, vous pourrez accéder à plus de détails sur les URLs qui sont directement concernées par ce problème.

Contenu dupliqué

Ensuite, si vous cliquez sur une URL canonique en particulier, vous pouvez voir quelles pages possèdent un contenu similaire.
Cluster de pages

Vous pouvez également vérifier si une partie de votre HTML est dupliqué.
HTML dupliqué

Ici, vous pouvez constater que 1606 pages ont un titre dupliqué. Si vous cliquez dessus, vous accéderez à plus de détails.
Cependant, il y a différents types de contenus dupliqués. Certains nuiront à vos classements tandis que d’autres seront inoffensifs. Concentrons nous sur ceux qui pénalisent votre SEO.

Quelles sont les bonnes pratiques?

Afin d’éviter ces problèmes de duplication, il y a des bonnes pratiques que vous pouvez suivre. La plupart du temps, un contenu qui se trouve dans plusieurs URLs doit être canonisé. Cela peut être fait à l’aide de redirections 301, de balise canonique ou d’outils de gestion des paramètres dans Google Webmaster Central.

Les redirections 301

Dans la plupart des cas, la redirection 301 est la solution la plus pertinente, surtout pour les problèmes d’URLs. Elle indique aux moteurs de recherche quelle version de la page est l’originale et relie celle qui est dupliquée à celle-ci. De plus, lorsque de nombreuses pages bien classées renvoient à la même page, elles ne rentrent plus en concurrence et obtiennent ainsi une pertinence plus forte et un meilleur signal de popularité.

La balise canonique

La balise canonique fonctionne à peu près de la même manière que la redirection 301, excepté le fait qu’elle est plus simple à mettre en place. Elle peut être utilisée pour les éléments de contenu copiés provenant d’autres sites. Elle indiquera aux moteurs de recherche que vous savez pertinemment que l’article copié a été mis de manière intentionnelle sur votre site et que tout le poids de cette page devrait passer à l’original. Si vous avez besoin de plus de détails sur le fonctionnement des balises canoniques, nous avons écrit un article sur ce sujet.

NoIndex, NoFollow

L’association de ces balises est utile pour les pages qui ne devraient pas apparaître dans l’index des moteurs de recherche. Les robots peuvent crawler ces pages mais ne les indexeront pas.

La gestion des paramètres

L’outil de Google Webmaster fournit différents services. L’un d’entre eux est de mettre en place un domaine préférentiel pour votre site et de gérer vos paramètres différemment. Cependant, cela ne s’applique qu’à Google. Vos changements ne seront pas pris en compte par Bing ou d’autres moteurs de recherche par exemple.

Et il y a des méthodes plus poussées qui peuvent être mises en place:

Le domaine préférentiel

C’est un réglage très basique qui devrait être implémenté sur chaque site. Il indique simplement aux moteurs de recherche si le site devrait être affiché avec le www ou non dans les pages de résultats de ceux-ci.

Le maillage interne

Soyez prudent avec le maillage interne. Si vous décidez que la version canonique d’un site est www.monsiteinternet.com, tous les liens internes devront renvoyer à http://www.monsiteinternet.com/siteinternet.html et non http://monsiteinternet.com/page.html

La fusion de contenu

Lorsque vous regroupez du contenu, soyez certain d’ajouter un lien qui renvoie à l’original.

Écrivez des descriptions de produits uniques

Cela prendra peut être plus de temps, mais si vous écrivez vos propres descriptions au lieu de directement prendre celles du fabriquant, cela vous aidera sûrement à obtenir un meilleur classement que les sites contenant les descriptions dupliquées.

Comment améliorer votre contenu et éviter les problèmes de duplication?

Voici les principales situations où l’on peut retrouver du contenu dupliqué. C’est ce que vous devriez éviter.

Les problèmes d’URLs

Les paramètres comme le suivi de clics ou le code Analytics peuvent engendrer des problèmes de duplication de contenu. En fait, ce sont les URLs similaires pointant vers des pages identiques qui auront des problèmes. Google considère le www, le non-www, le .com, le .com/index.html, l’http ou l’https comme des pages différentes même si ce sont les mêmes. Cela peut être ainsi vu comme du contenu dupliqué.
Exemple:
www.monsiteweb.com/article-rouge?couleur=rouge
www.monsiteweb.com/article-rouge

Versions imprimables

Les versions imprimables d’un contenu peuvent causer des problèmes de duplication de contenu lorsque des versions multiples des pages sont indexées.
Exemple:
www.monsiteweb.com/article-rouge
www.monsiteweb.com/print/article-rouge

Les identifiants de session

Ce problème tout à fait commun se présente lorsque chaque utilisateur qui vient sur un site est assigné à un identifiant de session différent et qui est sauvegardé dans l’URL.
Exemple:
www.monsiteweb.com/article-rouge?SESSID=142
www.monsiteweb.com/article-rouge

Les informations copiées ou syndiquées

Si vous voulez partager un article, une citation ou un commentaire de quelqu’un que vous admirez ou juste pour illustrer vos articles, cela sera considéré comme du contenu dupliqué; même si vous avez renvoyé au site web ou à l’URL. En effet, Google ne donnera pas grande valeur à ces éléments de contenu et cela conduira certainement à une baisse générale du score de qualité du domaine.

Les informations dupliquées d’un produit

Si vous possédez un site e-commerce, vous avez probablement rencontré ce problème. Cela se produit lorsque vous utilisez les descriptions des articles des fabriquants, présentes sur leurs sites, pour décrire vos produits. Le problème est que ces fabriquants peuvent vendre ce produit à plein de vendeurs différents et donc la description apparaîtra sur plusieurs sites. C’est donc du pur contenu dupliqué.

Le tri et les listes multi-pages

Un site e-commerce comme Amazon fournit des filtres qui génèrent des URLs uniques. Il possède un large nombre de pages produits dans la plupart des catégories qui peuvent avoir un classement différent selon l’ordre de la liste. Par exemple, si vous classez 30 articles selon leur prix ou leur ordre alphabétique, vous vous retrouverez avec deux pages qui ont le même contenu mais qui possèdent différentes URLs.

Pour toutes questions en rapport avec le contenu dupliqué, n’hésitez pas à nous écrire sur @Oncrawl_CS.