R&D Oncrawl : analyses avancées du contenu unique vs dupliqué

27 mars 2019 - 6  min de lecture - par Rebecca Berbel
Accueil > Français > R&D Oncrawl : analyses avancées du contenu unique vs dupliqué

Oncrawl est heureux de vous présenter son nouveau laboratoire de contenu dupliqué. Notre équipe R&D travaille sur une nouvelle manière de détecter le contenu unique vs dupliqué sur votre site. Cela vous permettra de vous baser sur une technique plus fiable lors de la construction de votre stratégie éditoriale.

Pourquoi se concentrer sur le contenu unique et dupliqué ?

Le contenu fait toujours partie des trois facteurs de classement les plus importants et Google encourage les sites web à délivrer du contenu instructif, unique et descriptif à leurs visiteurs afin d’offrir la meilleure expérience utilisateur possible.

Mais tous les contenus n’ont pas le même poids. Google a toujours été très compétent et devient même encore meilleur pour séparer le boilerplate (contenu structurel comme votre header, footer, menus navigationnels et d’autres contenus répétitifs) du contenu principal de la page.

En résumé, Google ignore généralement le texte de votre template et ne classe que votre contenu principal. C’est pourquoi, au lieu d’examiner le nombre de mots, le nouveau laboratoire expérimental d’Oncrawl réparti le contenu par blocs plutôt que par pages.

Nos données : qu’est-ce qu’un bloc de contenu ?

Une fois que vous avez fini de crawler votre site web, chaque page est séparée en blocs de texte plus petits. Un bloc de contenu est composé de mots qui sont groupés ensemble dans un seul noeud HTML, comme les ancres de texte, paragraphes ou les items d’une liste à puces.

Pour chaque bloc, nous calculons le quotient d’unicité et le ratio d’occurrence à travers tout votre site. Nous continuons d’utiliser les mêmes algorithmes que Google, notamment l’algorithme Simhash qui nous permet de calculer les degrés de similarité.

En utilisant les blocs de contenu, nous pouvons identifier le contenu principal d’une page. C’est le contenu qui est le moins dupliqué. Cela aide Oncrawl à fournir des réponses aux questions suivantes :

  • Quelle proportion du texte sur mon site est unique ?
  • Quelle est la proportion de boilerplate ?
  • Si nous excluons les textes de boilerplate et de template, est-ce que mon contenu est trop léger ?
  • Quelles pages bénéficieraient le plus de mes efforts de rédaction ?

Nos données : les graphiques et données sur les blocs de contenu

Les blocs de contenu vous permettent de vous concentrer sur le contenu unique seulement. Vous pouvez maintenant analyser l’unicité d’une page par rapport à d’autres sur votre site et trouver les pages qui contiennent trop peu de contenu unique.

Data Explorer

Dans le Data Explorer, vous pouvez maintenant examiner le nombre de mots et pourcentage de mots dans une page par types de blocs :

  • Blocs uniques
  • Blocs rencontrés sur 25 % des pages sur le site
  • Blocs rencontrés sur 25 % à 50 % des pages sur le site
  • Blocs rencontrés sur 50 % à 75 % des pages sur le site
  • Blocs rencontrés sur 75 % des pages sur le site
  • Blocs rencontrés sur toutes les pages du site.

Ces métriques sont aussi disponibles pour segmenter vos pages.

Métriques de rapport de crawl

Dans le rapport de crawl, un nouveau tableau de bord est disponible dans la sidebar : le Text block analysis. Les graphiques disponibles dans ce tableau vous donne un aperçu de la manière dont le contenu de votre site est réparti selon le quotient d’unicité.

Ces graphiques peuvent aussi être utilisés dans des tableaux personnalisés.

Quelles pages ont toujours du contenu léger une fois les templates et boilerplate retirés ? Vérifiez le nombre de pages avec moins de 300 mots dans les blocs uniques, indépendamment du nombre total de mots sur la page. Ces pages ont très peu de contenu principal à offrir, même si ce contenu est positionné sur des pages avec plus de 1200 mots :

Comparez le nombre de mots dans les blocs uniques par rapport au nombre de mots sur les pages en général. Des pages avec un faible nombre de mots peuvent contenir beaucoup plus de contenu unique que des pages plus longues, comme les pages dans la première colonne de ce site :

Évaluez l’unicité par page en examinant les portions de mots par page qui sont trouvées dans chaque type de bloc. Cela aide à répondre à des questions comme :

  • En moyenne à travers le site, quelle proportion d’une page est du contenu boilerplate (orange et rouge) ?
  • En moyenne à travers le site, quelle proportion du contenu d’une page est dupliquée (vert) ?

Comprenez combien de mots sont uniques par page et comment cette distribution se déroule à travers les autres pages. Cela fournit des réponses aux questions suivantes :

  • Combien de pages ont du contenu unique ou presque unique ?
  • Combien de pages contiennent plus de 1200 mots de contenu unique ou presque unique ?
  • Sur combien de pages les boilerplates ou templates de textes comptent pour plus de 30 % du texte de la page ?
  • Combien de cas aux extrémités de la distribution (des pages avec plus de la moitié de leur contenu dans des blocs très similaires, ou des pages avec plus de la moitié de leur contenu dans des blocs très uniques) existent sur le site ?

Et analysez l’unicité par profondeur et par groupe de page :

Nos données : le content overlay d’Oncrawl, qu’est-ce que c’est ?

Cette nouvelle analyse propose une surcouche visuelle pour chaque page crawlée par Oncrawl.

La surcouche de contenu illustre l’unicité de votre contenu en surlignant chaque bloc de contenu HTML sur votre page web selon la couleur correspondant à son unicité.

Oncrawl utilise le code source détecté par le robot au moment du crawl et revêtit l’analyse d’unicité pour chaque bloc dans la source HTML.

En survolant un bloc de contenu, vous pouvez obtenir des informations comme :

  • L’intégralité du texte dans un bloc de contenu
  • La fréquence exacte du contenu à travers le site
  • Le nombre de fois que le bloc est utilisé en tant qu’ancre de texte pour un lien

Cette analyse peut révéler des sections de pages où le contenu est copié et collé ou là ou des templates de rédaction sont utilisés sans être développés. Et inversement, il peut aussi montrer comment les pages avec peu de contenu réussissent à inclure de l’originalité sans augmenter leur nombre de mots.

Construire une stratégie de rédaction de contenu basée sur l’unicité d’une page

Vous pouvez désormais aller au-delà du nombre de mot lorsque vous analysez la qualité d’un contenu.

Les nouvelles métriques expérimentales d’Oncrawl ont été pensées pour permettre une analyse profonde de la stratégie éditoriale :

  • Utilisez-vous du contenu similaire pour les pages visant différentes intentions de recherche ? Est-ce que ce contenu est suffisamment adapté pour les différences dans l’intention de recherche ?
  • Est-ce que des pages sur votre site requièrent de grande quantités de contenu unique pour se classer et bien performer. Est-ce que des pages courtes et uniques arrivent au même résultat ?
  • Est-ce que le contenu répété (menus, footers, texte boilerplate, décharges…) fait de l’ombre à votre contenu principal ?
  • Avez-vous utilisé un template de rédaction non adapté pour des pages individuelles dans un groupe de pages avec une haute similarité ? Comme par exemple des localisations d’agence ou de bureaux ?

Notre équipe de R&D a pour objectif de vous permettre d’explorer votre contenu en profondeur et selon un nouvel angle. Nous espérons que vous apprécierez ces nouvelles données et que cela vous aidera à amener votre stratégie éditoriale au niveau supérieur.

 

Rebecca Berbel Voir tous ses articles
Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.
Sujets en lien :