Ne soyez pas Joey Donner.

Au milieu d’un couloir de lycée bondé, Joey Donner apparaît devant Bianca, (qui a sérieusement le béguin pour lui depuis la 15ème minutes environ du film “10 Things I Hate About You”), brandit deux photos quasiment identiques et la force à choisir celle qu’elle préfère.

Joey : [tenant les portraits] “Laquelle tu préfères ?”
Bianca : “Hum, je pense que j’aime bien celle avec le haut blanc”.
Joey : “Ouais, c’est plus…”
Biance : “Pensif ?”
Joey : “Mince, j’allais dire réfléchi”.

Joey Donner

Comme Bianca, les moteurs de recherche doivent faire des choix – tee-shirt noir ou tee-shirt blanc, classer ou ne pas classer (#ShakespeareProse!). Selon l’ouvrage Introduction to Information Retrieval (c19) “pour certaines estimations, plus de 40 % des pages sur le web sont des dupliqués d’autres pages” – ce qui correspond à une gigantesque quantité de stockage et de ressources générales gâchées (pour peu de rentabilité en retour #LesBotsN’ontPasLeTempsPourÇa) !

En surface, la solution est simple : Ne soyez pas Joey Donner, ne forcez pas les bots des moteurs de recherche à choisir entre deux résultats identiques. Cependant, en plongeant plus profondément dans l’état psychologique de Joey, nous nous apercevons qu’il ne réalise pas qu’il est redondant. Il ne se rend pas compte qu’il présente la même photo et met Bianca dans une situation épineuse. Il est simplement inconscient. Pareillement, le contenu dupliqué peut jaillir d’une multitude de possibilité inattendues et de webmasters qui doivent être vigilants pour s’assurer qu’ils n’interfèrent pas avec l’expérience des bots et des utilisateurs. Nous devons être attentifs et déterminés à ne pas être un autre Joey Donner.

Qu’est-ce que le contenu dupliqué ?

Comme souligné dans les directives générales de Google Webmaster, le contenu dupliqué correspond à “d’importants blocs de contenu au sein ou à travers les domaines qui sont soit complètement similaires à un autre contenu ou bien comportent de sensibles similarités”.

Il est important de comprendre que ces pages qui apparaissent comme les mêmes virtuellement à un utilisateur ne devraient pas affecter leur expérience sur le site. Cependant, des pages avec des contenus hautement similaires vont affecter l’évaluation des bots des moteurs de recherche.

Differences between bots and users

Ce qu’un utilisateur voit / Ce qu’un bot voit 

Pourquoi les webmasters devraient se soucier du contenu dupliqué ?

Le contenu dupliqué provoque quelques problèmes, tout d’abord dans les classements, à cause des signals déroutants qui sont envoyés aux moteurs de recherche. Ces problèmes incluent :

  • Des challenges d’indexation : les moteurs de recherche ne savent pas quelle version ils doivent inclure/exclure de leurs indices.
  • Un faible impact de lien : comme différents résidents d’internet à travers le web pointent vers différentes versions de la même page, l’équité de lien se répand parmi ces multiples versions.
  • Une compétition interne : lorsque le contenu est étroitement lié, les moteurs de recherche se débattent avec les différentes versions de la page qu’ils doivent classer dans les résultats de recherche (Elles sont trop similaires : comment un bot peut savoir ?!).
  • Une faible bande passante de crawl : en forçant les moteurs de recherche à crawler les pages qui n’ont pas de valeur, vous perdez une partie de la bande passante de crawl de votre site, ce qui peut être un grand préjudice pour les grands sites.

Qu’est-ce qui compte pour du contenu dupliqué ?

Le contenu dupliqué est souvent créé de manière intentionnelle (la plupart du temps, nous n’avons pas l’intention d’être Joey Donner).
Vous trouverez ci-dessous une liste des sources courantes desquelles le contenu dupliqué peut non intentionnellement découler. Il est important de noter que bien que tous ces éléments doivent être vérifiés, ils ne sont peut-être pas à l’origine des problèmes (prioriser les challenges du contenu dupliqué est vital).
Sources courantes de duplication :

  • Les pages répétées (exemple : les pages de taille pour des produits avec les mêmes spécificités, les landing pages sponsorisées sur les moteurs de recherche avec des copies répétées)
  • Les sites en dev indexés
  • Les URLs avec différents protocoles (HTTP vs. les URLs en HTTPS)
  • Les URLs sur différents sous-domaines (ex : www vs non-www)
  • Les URLs avec différentes casses de caractères
  • Les URLs avec différentes extensions de fichier
  • Les barres slash ou non slash (Blog de Google Webmaster en / ou non-/)
  • Les pages indexées (/index.html, /index.asp,etc…)
  • Les URLs avec des paramètres (ex : suivi de clics, filtres de navigation, sessions IDs, code analytics, etc…)
  • Les facettes
  • Les types
  • Les versions facilement imprimables
  • Les pages “Doorway”
  • Des contrôles des stocks faiblement exécutés
  • Des contenus syndiqués
  • Des communiqués de presse à travers les domaines
  • Le contenu re-publié à travers les domaines
  • Les plagiats à travers les domaines
  • Le partage de contenu dans les snippets à travers les domaines
  • Le contenu localisé (pages sans labels Hreflang appropriés, surtout dans le même langage)
  • Le contenu pauvre apparaissant comme dupliqué
  • Inclus : les contenus template ou boilerplate
  • Les pages avec seulement des images
  • Les résultats indexables des recherches internes du site
  • La pagination
    • Note : Les séries paginées ne sont techniquement pas du contenu dupliqué. Google devrait les indexer avec une priorité faible. Pour en savoir plus : l’outil de test de pagination rel=”prev/next” de TechnicalSEO.com.
  • Configuration séparée de l’URL mobile :

Est-ce que le contenu dupliqué se positionne ?

Lorsque l’on a affaire à du contenu dupliqué inter-domaine, il y a une “enchère” désignée comme gagnante (en fabricant du contenu dupliqué à l’intérieur des SERPs, c’est hypothétiquement une situation où le vainqueur emporte toute la mise). Gary Illyes, mieux connu en tant que Chief of Sunshine and Happiness chez Google, a mentionné que l’enchère se produit durant l’indexation, avant que le contenu entre dans la base de données, et est relativement permanente (donc une fois que vous avez gagné, vous êtes censés obtenir un avantage). Cela signifie que le premier à publier du contenu devrait théoriquement être considéré comme le gagnant.

Cependant, cela ne veut pas dire que le contenu dupliqué (que ce soit sur les mêmes ou à travers les domaines) ne sera pas classé. Il existe en faite des cas où Google détermine que le site d’origine est moins adapté pour répondre à un résultat et qu’un site concurrent est alors sélectionné pour être classé.
Les classements dépendent de la nature de la requête ; le contenu disponible sur le web pour répondre à cette dite requête, la pertinence de la sémantique de votre site par rapport à un sujet, et l’autorité à l’intérieur de l’espace (ex : le contenu dupliqué est plus à même d’être classé pour des requêtes liées plus précises, ou des requêtes qui ont une faible quantité de contenu associé).

Est-ce que le contenu dupliqué devrait se positionner ?

Théoriquement, non. Si le contenu n’apporte aucune valeur aux utilisateurs dans les SERPs, il ne devrait pas être classé.

Est-ce que je devrais être inquiet si mon site doit avoir du contenu dupliqué ?

Concentrez-vous sur ce qui est le mieux pour l’utilisateur. Une préoccupation de base. Est-ce que cela répond à la question de votre utilisateur de façon significative pour l’expérience globale de votre site ?

Si un site doit avoir du contenu dupliqué (que ce soit pour des raisons politiques, légales ou de contrainte de temps) et qu’il ne peut pas être consolidé, signalez aux bots des moteurs de recherche comment ils doivent procéder avec l’une des méthodes suivantes – balises canoniques, balises meta robots noindex/nofollow ou avec un bloc à l’intérieur des robots.txt.

Il est aussi important de noter que le contenu dupliqué en lui-même ne mérite PAS de pénalité (note : cela n’inclue pas les sites scraper, les spams, le contenu spinné, ou les pages “doorway”) ; selon John Mueller, Webmaster à Google dans le Google Hangout d’Octobre 2015.

Comment fait-on pour identifier du contenu dupliqué ?

OnCrawl – Je serai négligente si ne je ne commençais pas par aborder la visualisation du contenu dupliqué d’OnCrawl, parce qu’ils sont les plus méchants du milieu (et par cela j’entends les meilleurs). L’un de mes aspects favoris est comment OnCrawl évalue le contenu dupliqué par rapport aux canoniques. Si le contenu est à l’intérieur d’un cluster/groupe canonique spécifique alors les problèmes peuvent être typiquement classés comme résolus. Leurs rapports vont encore plus loin et peuvent montrer les données segmentées par sous-dossier. Cela peut aider à identifier des domaines spécifiques avec des problèmes de contenu dupliqué.

duplicate content

duplicate content by groups

Outils de plagiarisme – Remerciez vos professeurs de lycée et d’université pour avoir créé l’un des outils les plus utiles pour évaluer le contenu dupliqué. Pendant qu’ils essayaient d’identifier des étudiants incohérents, ils ont réussi à créer des outils utiles qui s’appliquent au contenu dupliqué en ligne (procurant des pourcentages de similarité). 20/20 !

Recherches Google – Exploitez les citations et les opérateurs de recherche pour trouver le contenu dupliqué potentiellement à l’intérieur de votre site et à travers le web. Si Google ne peut pas le trouver, alors le problème a vraisemblablement été révoqué.

  • Citations directes dans Google
  • Les recherches via le site:searches
  • site:domaine.com
  • site:domaine.com inurl:www
  • inurl:produit id ou catégorie id

Outils de densité de mots-clés – Lorsque vous comparez le contenu à travers les pages, utilisez des visuels de vérification de densité pour identifier les thématiques d’une page. Si le sujet d’une page n’apparaît pas à travers les densités, la rédaction doit être revue pour être clarifiée.

keyword cloud

keyword density

Google Search Console – La Google Search Console offre des outils innombrables pour accompagner les webmasters. Le chef des outils de contenu dupliqué est le rapport de paramètre d’URL de Google, qui est conçu pour aider Google à crawler les sites efficacement en signalant comment gérer les paramètres d’URL.

google url parameter

L’outil de préparation au Mobile-First Index de TechnicalSEO.com – Si vous avez une configuration mobile séparée, cet outil est un bon point de départ pour commencer un audit de parité mobile/desktop afin d’identifier des divergences.

Les solutions pour le contenu dupliqué

Les solutions pour le contenu dupliqué dépendent fortement de la cause. Cependant, voici quelques astuces. La résolution du contenu dupliqué requiert un bel équilibre entre le SEO technique et la stratégie de contenu.

  • Connaître votre parcours utilisateur.
    Comprendre où les utilisateurs se situent dans l’entonnoir marketing, avec quel contenu ils interagissent, et pourquoi ils interagissent avec lui peut vous aider à configurer l’architecture d’information générale de votre site ainsi que son contenu. Ainsi, vous serez à même de créer des expériences utilisateurs intelligentes. Vous trouverez des échantillons de schémas de mapping de contenu ci-dessous (imprimez-les et remplissez-les !).
  • Créer une forte taxonomie hiérarchique d’URL et une architecture d’information qui facilite cela. Si vous avez une tonne de sujets similaires, assurez-vous que vous avez une carte d’alignement de mots-clés claire.
  • Surtout, vérifiez que vous n’avez pas cannibalisé votre propre trafic. Ce n’est pas la peine de se battre contre soi-même.
  • Lorsque vous identifiez du contenu dupliqué, il est vital de prioriser les problèmes de contenu dupliqué qui affectent votre performance (et intégrer cela dans votre stratégie globale de recherche organique).
  • Si les pages sont 100 % dupliquées et qu’une version n’a pas besoin d’être en direct, choisissez-la et consolider-la avec une redirection en status HTTP 301.
  • Basé sur votre parcours utilisateur – Assurez-vous que tout le contenu sur vos pages soit indexable et indexé.
    • Pour prendre un exemple illustré, mon équipe a une fois identifié un problème où les commentaires depuis Facebook (qui étaient une mise en lumière pour les pages produits de ce site) n’étaient pas indexées. Résoudre le problème des commentaires Facebook qui n’étaient pas crawlés ni indexés aurait transformé les pages de contenu faible en forum unique lié au produit.
  • Basé sur votre parcours utilisateur – Exploitez les balises HTML, robots.txt, et les status codes HTTP appropriés pour indiquer ce que les moteurs de recherche doivent faire avec des parties particulières du contenu.
  • Avancez stratégiquement → Consolidez, créez, supprimez et optimisez.
    • Consolidez – Consolidez le contenu dupliqué s’il y a lieu avec des redirections 301 et des balises canoniques (lorsque les deux expériences doivent restées en direct).
    • Optimisez – Pouvez-vous avoir une perspective unique ? Pouvez-vous mieux cibler ou aligner vos mots-clés ? Comment pouvez-vous recadrer ce contenu pour qu’il soit unique et utile ?
    • Créez – Occasionnellement, il est pertinent de casser le contenu et de créer une expérience séparée et universelle.
    • Supprimez – Élaguez le contenu peut aider la bande passante du crawl, car les moteurs de recherche ne seront pas forcés de crawler le même contenu qui n’ajoute pas de valeur à votre site répétitivement.
  • Si votre contenu a été volé, il existe deux possibilités primaires à tenter :
    • 1. Demander une balise canonique qui pointe vers votre site.
    • 2. Remplir une requête DCMA avec Google.
    • S’assoir et profiter de l’incroyable comédie romantique “10 Things I Hate About You !”

Templates de stratégie de cartographie de contenu

Le parcours utilisateur illustratif

Imprimez et étiquetez votre parcours utilisateur typique pour vous tester vous-même en exemple. Étiquetez chaque type de contenu avec lequel l’utilisateur pourrait interagir au cours de son parcours et estimez le temps passé sur chaque étape. Bien qu’il pourrait y avoir des étapes additionnelles et que le chemin peut ne pas être toujours linéaire. Ajoutez des flèches et élargissez ; l’objectif est de s’exercer avec un exemple basique avant de plonger dans des cartographies complexes/engagées.

illustrative user journey

Carte de contenu d’entonnoir marketing simple

Imprimez et écrivez les objectifs, types de contenu, traits psychologiques communs, localisation de contenu, et ce qu’il faudrait pour pousser les utilisateurs à la prochaine étape de leur parcours. L’idée est d’identifier quand les utilisateurs vont interagir avec certains contenus, ce qu’il se passe dans leurs esprits et comment les orienter dans leur voyage.

funnel content map

Matrice de priorisation de contenu

Imprimez et cartographiez les points avec les types de contenu disponibles, schématisés par points vitaux binaires. Une fois que vous avez cartographié tout votre contenu, prenez du recul et observez s’il y a des domaines manquants. Exploitez cette matrix pour prioriser le contenu le plus important, que ce soit par potentielle conversion ou par besoin.

Matrice de contenu retail :

Commencez avec une cartographie d’intention informative à transactionnelle dans l’axe Y. Les “Non-marque” et “marque” sont les critères les plus pertinents.

retail content mix

Matrice de contenu de gamme de service :

Démarrez avec les utilisateurs qui sont les plus proactifs versus les plus réactifs sur l’axe Y. Puis, de transition à conversion potentielle. Pour les services, cela pourrait ressembler à “Sollicitations d’experts” versus “DIY”.

service line content matrix

Lectures recommandées

Documentation de Google sur le contenu dupliqué
L’introduction à la récupération d’information (chapitre 19) – L’introduction de Stanford dans le livre sur la théorie des moteurs de recherche. Ce chapitre couvre la théorie sur la manière dont les ingénieurs des moteurs de recherche pourraient résoudre les problèmes de contenu dupliqué, incluant des concepts comme : l’empreinte digital et le transport. (version PDF, livre disponible sur Amazon)
Conseil sur le contenu dupliqué de Google – Le mal aimé du web passé au crible des notes de Google Hangout, des commentaires Twitter et de la documentation Google, dessinant une image de la position de Google sur le contenu dupliqué.