Le contenu dupliqué est l’un des problèmes majeurs rencontrés par les webmasters. Il fait référence à du contenu qui apparaît plus d’une fois sur un site. Le contenu dupliqué peut être aussi bien au sein du site mais aussi à l’extérieur. Dans les faits, le contenu dupliqué cause des problèmes aux crawlers qui ne savent plus quel contenu choisir pour une requête donnée. Prenant en compte l’expérience utilisateur, les robots n’afficheront pas toutes les pages et seront obligés de choisir celle susceptible d’être la plus pertinente. En résulte une perte de qualité importante dans les résultats et donc une perte de trafic. OnCrawl vous permet de détecter votre contenu dupliqué.

Comment gérer ce contenu et quelles sont les solutions à disposition ?

Le contenu dupliqué peut causer 3 types de problèmes: 

  • une confusion entre les versions à indexer
  • des difficultés à diriger les métriques de liens (autorité, trust, ancres de texte, jus de lien) à la bonne page ou de les partager entre les bonnes versions
  • impossibilité de référencer la bonne version pour une requête

Cependant, il existe différents types de contenu dupliqué. Certains auront un impact négatif sur votre référencement alors que d’autres sont inoffensifs. Aujourd’hui, concentrons nous sur ceux pénalisant votre SEO.

Quels types de contenus dupliqués sont dangereux ?

Les problèmes d’URLs

Les paramètres de types tracking de clics ou les codes analytiques peuvent causer des problèmes de contenu dupliqué. En fait, des URLs similaires pointant vers des pages identiques rencontreront des problèmes. Google considère www, non-www, .com, com/index.html, http ou https comme étant des pages différentes même si elles sont pareilles. Ces pages sont donc perçues comme du contenu dupliqué.

Exemple:
www.monsiteweb.com/red-item?color=red
www.monsiteweb.com/red-item

Les versions imprimables

Les versions imprimables d’un contenu peuvent causer des problèmes de contenu dupliqué lorsque plusieurs versions d’une page sont indexées.

Exemple:
www.monsiteweb.com/red-item
www.monsiteweb.com/print/red-item

Identifiants de session

Ce problème commun arrive lorsque chaque utilisateur arrivant sur un site se voit assigner un identifiant de session différent sauvegardé dans l’URL.

Exemple:
www.monsiteweb.com/red-item?SESSID=142
www.monsiteweb.com/red-item

Information copiée ou regroupée

Si vous souhaitez partager un article, une citation ou un commentaire issus d’un blog autre que le votre pour illustrer un article, cela pourrait être perçu comme du contenu dupliqué même si vous avez fait un lien vers son site. En effet, Google évalue faiblement ce type de contenu et cela peut amener à une perte globale d’un score de qualité.

Informations produits dupliquées

Si vous détenez un site e-commerce, vous avez sûrement rencontré ce problème. Il apparaît lorsque vous utilisez les descriptions produits envoyées par votre fournisseur. La même description se retrouve donc sur plusieurs site en même temps car votre fournisseur vend sûrement ses produits à d’autre sites e-commerce. Il s’agit donc de pure contenu dupliqué.

Listes filtrées et multi-pages

Un site ecommerce comme Amazon offre des options de filtre qui génèrent des URLs uniques. Il détient un large nombre de pages produits placées dans des catégories qui peuvent changer en fonction du filtre de liste utilisé. Par exemple, si vous ordonnez 30 items par prix dans un ordre alphabétique, vous aurez donc deux pages avec le même contenu mais avec des URLs différentes.

Quelles sont les bonnes pratiques ?

Pour éviter ces problèmes de contenu dupliqué, il existe quelques bonnes pratiques à mettre en place. La plupart du temps, un contenu placé dans différentes URLs doit être canonicalisé. Cette opération peut être faite grâce aux redirections 301, la balise canonique ou des outils de paramétrage de Google Webmaster Central.

Redirection 301

La redirection 301 est dans la plupart des cas la solution la plus pertinente pour les problèmes d’URLs. Elle permet aux moteurs de recherche de déterminer la version originale d’une page et de lier les dupliquées à celle-ci. De plus, lorsque plusieurs pages bien référencées sont liées à une seule page, elles ne sont plus en compétition et créent un signal de popularité et de pertinence plus fort. Ces pages sont ainsi mieux référencées.

La balise canonique

La balise canonique marche plus ou moins de la même façon que la redirection 301 excepté qu’elle est plus facile à implémenter. Elle peut être utilisée pour du contenu copié de sites extérieurs. Elle notifiera les moteurs de recherche que vous savez que l’article copié à été placé de façon consciente sur votre site et que donc le jus de lien de cette page doit revenir à l’originale.

NoIndex, NoFollow

Cette balise est utile pour les pages qui ne devraient pas apparaître dans l’index des moteurs de recherche. Les robots peuvent crawler la page mais ne doivent pas l’indexer.

Paramètre de gestion

Google Webmaster Tool offre différents services. L’un d’entre eux permet de régler un domaine par défaut pour votre site et de gérer les paramètres URL différemment. Cependant, cela s’applique uniquement pour Google. Ces changements ne seront pas pris en compte par Bing ou d’autres services.

D’autres méthodes sont également envisageables:

Domaine par défaut

C’est un réglage de base qui peut être mis en place sur votre site. Il informe les moteurs de recherche si un site doit être affiché avec le www ou non dans les pages de résultats.

Maillage interne

Soyez vigilent avec votre maillage interne. Si vous décidez que la version canonique d’un site est www.monsiteweb.com, tous les liens internes devront donc aller à http://www.monsiteweb.com/siteweb.html et non à http://monsiteweb.com/page.html.

Contenu fusionné

Lorsque vous regroupez du contenu, soyez sûr d’ajouter un lien vers le contenu original.

Ecrivez des descriptions produits uniques

Cette option prend du temps, mais si vous écrivez vos propres descriptions, vous mettrez toutes les chances de votre côté pour vous positionner au dessus des sites ecommerce utilisant les descriptions par défaut.

OnCrawl est capable de détecter tout contenu dupliqué ou proche. Détectez facilement les groupes de pages concernés.