Détecteur de contenu dupliqué disponible

23 mars 2016 - 3  min de lecture - par Emma Labrador
Accueil > Français > Détecteur de contenu dupliqué disponible

Il y a quelques temps @Oncrawl..

..nous avons fièrement lancé le premier détecteur sémantique de contenu dupliqué dédié au SEO. Voyez plus loin que les titres et les métas dupliquées.

Comme Google venait d’annoncer plusieurs mises à jours, il y avait de fortes chances que les métriques liées à l’utilisation de votre site et la qualité de votre contenu aient un fort impact sur votre SEO. C’est pour cette raison que nous avons essayé d’adapter notre analyseur sémantique de pointe au monde du SEO.

Nous savions que le contenu dupliqué pouvait nuire à vos classements. Et aujourd’hui, les professionnels du SEO ont besoin d’une solution plus performante que de simplement vérifier si leur titres ou méta descriptions sont dupliqués. En effet, il est assez facile d’avoir un titre unique pour chacune de vos pages et les professionnels sont plutôt doués pour ça. Mais c’est légèrement diffèrent lorsqu’il s’agit du coeur de votre contenu. Êtes vous sûrs que de gros paragraphes ou séries ne se superposent pas avec le contenu de certaines de vos pages? Nous ne pouvons évidemment pas tous répondre à cette question. Nous avons donc introduit cette toute nouvelle fonctionnalité, que vous retrouverez dans l’onglet “Duplicate Content” sur votre compte OnCrawl.

duplicate content analysis
Comment pouvez-vous comparer toutes vos pages web entre elles si vous en avez des tonnes? C’est tout à fait impossible pour un être humain. Et pour cela que nous avons bien entraîné nos robots! Afin que vous compreniez comment nous calculons les données de votre site par rapport au contenu dupliqué, je suis ravi de vous communiquer les réflexions de Tangy Moal, notre CTO.

Tanguy Moal CTOSalut Tanguy, tu as planché sur le détecteur de contenu dupliqué, peux-tu nous expliquer l’approche scientifique que nous avons mise en place pour détecter ce type de contenu?
Nous utilisons une technologie standard pour la détection des contenu proche. En fait, nous nous sommes inspirés de la publication simhash (l) de Google. Nous y avons ajouté des ingrédients de chez nous comme la prise en compte des 2-grams afin de pouvoir réduire les taux de faux positifs.

Quelles sont les mauvaises habitudes que tu as remarqué jusqu’à présent?
Bonne question en effet. Cela dépend bien sur du site web qui est analysé. Pour les commerçants en ligne, avoir une page correspondant à chaque couleur/ variation d’un produit en particulier est clairement problématique. C‘est aussi mauvais signe lorsque le template (en tête, pieds de page et encadrés) représente plus de 75% du contenu des pages.

Lorsqu’OnCrawl repère un ensemble de page qui possèdent des doublons, comment priorises-tu le travail? Parce qu’il peut y en avoir beaucoup.
Je pense que les principaux éléments à vérifier sont d’abord de voir si vos groupes de page ont une URL canonique et si c’est la même pour tout le groupe. Ensuite, je me concentrerais sur les groupes de pages qui n’en contiennent que 2 car c’est souvent un problème causé par un réglage mal paramétré dans vos URLs (la pagination par exemple ou un “espace” de fin), donc les corriger devrait être facile.
Enfin, je vérifierais les groupes qui possèdent des “money pages” parce que si vous avez un problème avec celles-ci, vous êtes sûrement en train de perdre de l’argent au quotidien.

 

Emma était Responsable Communication & Marketing chez Oncrawl pendant plus de 7 ans. Elle a contribué plusieurs articles sur le SEO et les mises à jour des moteurs de recherche.
Sujets en lien :