Analyse Maillage interne : comment déterminer les pages les plus importantes ?

3 mai 2021 - 9  min de lecture - par Antoine Eripret
Accueil > SEO Technique > Déterminer les pages les plus importantes à lier

Si le maillage externe (les backlinks) est un des axes d’amélioration qui est souvent mentionné pour améliorer son référencement, le maillage interne est également important et reste souvent sous-exploité. Pourtant, un bon maillage interne peut faire la différence dans des secteurs très concurrentiels.

Si pour un site de petite taille, définir les pages les plus importantes à lier en priorité peut s’avérer une tâche relativement facile, qu’en est-il des sites avec des milliers, voire des millions de pages?

Dans l’article d’aujourd’hui, je vais vous expliquer une méthodologie que vous pouvez appliquer à votre projet pour définir cette priorisation.

Analyse n-gramme de nos mots-clés

En premier lieu, nous devons comprendre quels sont les mots-clés qui sont le plus souvent utilisés pour rechercher notre produit ou service. Si vous avez déjà ouvert un rapport de Google Search Console, vous aurez sans doute remarqué que de nombreuses structures peuvent exister. Par exemple, pour l’achat d’un vol entre deux villes différentes, prenons Lyon et Barcelone, les recherches peuvent être:

  • Vol lyon barcelone
  • Billet avion lyon barcelone
  • Vol lyon barcelone pas cher
  • Etc.

Cette pluralité des mots-clés utilisés n’est pas spécifique à l’industrie du voyage, et vous avez sans doute une situation similaire dans la vôtre.

Il est cependant indispensable de savoir quelles sont les structures les plus utilisées pour pouvoir réaliser correctement notre analyse. Comment ? Tout simplement en réalisant une analyse n-gramme (séquence de N mots utilisée comme mot clé) de nos propres données Google Search Console.

Avant de vous expliquer comment le faire, une précision : les données de Google Search Console ne sont malheureusement pas parfaites.

[Étude de cas] Augmenter son trafic et ses conversions grâce à une stratégie SEO orientée business

Grâce à une stratégie SEO gagnante axée sur la gestion du contenu dupliqué, l'amélioration de la structure du site et l'analyse du comportement de Googlebot, carwow a amélioré ses performances commerciales. Découvrez comment montrer les résultats réels d'une stratégie SEO basée sur le ROI de l'entreprise.

Limitations

Avant de commencer notre analyse, nous devons savoir que les métriques affichées par l’outil lorsque vous incluez la dimension “query” ne représentent que 30-50% (le chiffre exact dépendra de votre site) du total affiché si vous incluez la dimension “page”, par exemple.

En d’autres termes : l’outil souffre d’échantillonnage en fonction des dimensions. Cela veut dire que les métriques renvoyées par la Google Search Console seront différentes en fonction de ce que vous analysez (requêtes, pages …). Je précise que ces données sont obtenues en utilisant l’API, c’est-à-dire en obtenant toutes les données disponibles, et non pas l’interface que tout le monde connaît qui ne permet d’analyser que 1000 éléments au maximum.

Si vous travaillez avec Python, vous pouvez consulter la documentation officielle de Google ou, encore mieux, utiliser cette librairie qui vous permettra de gagner un temps considérable. Je l’utilise moi-même de manière régulière.

Cela étant dit, l’outil reste tout de même plus exhaustif que n’importe quel autre outil tiers comme SEMrush, SEObserver, Ahrefs ou Sistrix pour ne citer que les plus connus.

Méthodologie pour obtenir vos n-grammes

Afin de connaître vos n-grammes, vous devez suivre la procédure suivante :

Téléchargez vos données Google Search Console

Il est important de télécharger vos données pour une seule et même verticale. En effet, les n-grammes d’une section Vol et d’une section Train seront sans doute différents, et si vous mélangez vos données, vous risquez d’obtenir des n-grammes valables uniquement pour la verticale la plus importante.

Si votre site est nouveau ou ne ressort que très rarement en première page, je vous conseille néanmoins de privilégier l’utilisation d’un document de données tierces.

Supprimez les variables

Dans certains cas, vous devez supprimer certains éléments de ces mots-clés. En effet, supposons que ma liste contienne uniquement 4 mots-clés:

  • Vol paris rome
  • Vol pas cher paris rome
  • Vol lyon barcelone
  • Vol pas cher lyon barcelone

Je veux obtenir des n-grammes sous forme de structures, contenant des variables. Ici, par exemple, je souhaite garder uniquement : vol {{origine}} {{destination}} et vol pas cher {{origine}} {{destination}}, sans les villes donc. Dans votre cas, vous devrez peut-être remplacer le nom de vos produits, la taille etc… cela dépendra de votre industrie.

Calculez les n-grammes et récupérez les volumes de recherche

Vous pouvez utiliser le système que vous préférez: Dans mon cas, j’utilise Python, qui a l’avantage d’être simple et qui permet de traiter la quantité de données que nous avons sur un ordinateur ordinaire / sans tuer son ordinateur.
#importer les librairies
import collections
import nltk
import numpy as np
import pandas as pd

#créer une liste de mots clés uniques
list_of_keywords = report[‘query’].tolist()
#créer une liste de mots contenus dans ces mots clés
list_of_words_in_keywords = [x.split( » « ) for x in list_of_keywords]

#compter les plus communs
counts = collections.Counter()
for phrase in list_of_words_in_keywords:
counts.update(nltk.ngrams(phrase, 1))
counts.update(nltk.ngrams(phrase, 2))
Vous pouvez également utiliser la fonction native d’Oncrawl pour analyser votre contenu et ainsi découvrir certains n-grammes qui n’apparaissent pas (encore) dans la Search Console.

Vous devrez ensuite récupérer les volumes de recherche de chacune de ces structures, afin d’obtenir un tableau comme celui-ci.

Nous trouvons alors les structures les plus communes, celles qui ont le plus grand nombre d’impressions pour notre verticale.

querycountimpressions
Vol {origine} {destination}50167000
Vol pas cher {origine} {destination}67630000
Billet avion {origine} {destination}30097000

Bravo d’avoir suivi jusqu’à cette étape, je sens que vous avez envie de savoir à quoi nous servira cette information. La réponse dans la prochaine partie 😉

[Étude de cas] Augmenter son trafic et ses conversions grâce à une stratégie SEO orientée business

Grâce à une stratégie SEO gagnante axée sur la gestion du contenu dupliqué, l'amélioration de la structure du site et l'analyse du comportement de Googlebot, carwow a amélioré ses performances commerciales. Découvrez comment montrer les résultats réels d'une stratégie SEO basée sur le ROI de l'entreprise.

Extraction des volumes de recherche

Rappelons que notre objectif est de définir les pages les plus importantes à lier en priorité.

Afin de pouvoir comprendre quelles sont les pages ayant le plus fort potentiel de trafic, nous devons récupérer les volumes de recherche des différentes structures de mots-clés les plus communes, pour chacune des pages. Nous ne prenons en compte que le volume de recherche ici, la notion de CTR viendra après !

Vous commencez à comprendre à quoi servait l’étape précédente ? Afin de gagner en efficacité, l’utilisation d’une API est obligatoire. De nombreuses solutions, souvent payantes, existent. Si vous utilisez DataForSEO, l’obtention des volumes pour 350.000 mots-clés vous coûtera moins de 40€, donc nous ne parlons pas d’un investissement conséquent non plus.

À l’issue de cette étape, vous obtenez un fichier avec le volume potentiel par URL. Celui-ci correspond à la somme des volumes des n-grammes les plus courants calculés lors de l’étape précédente.

Fusion des données

À ce stade, nous ne pouvons évidemment pas nous contenter de ces données pour établir le classement des pages les plus importantes de notre site. Pourquoi ?

Ne mélangeons pas volume et trafic !

Dans certains cas, même si vous êtes en première position, il est possible que votre CTR reste faible. Cela est souvent dû au nombre d’annonces et de modules affichés par Google au-dessus de votre page. Voici un exemple sur une requête météo oú le premier module de Google attire fortement l’attention de l’utilisateur avant même d’arriver au premier résultat organique.

Limitations des n-grammes

L’importance des mots-clés de longue traîne peut varier selon les secteurs. Les structures qui n’auraient donc pas été retenues lors de la première étape (ou sont masquées par Google Search Console) pourraient néanmoins représenter une partie intéressante du potentiel. Nous devons donc les inclure.

Importance de chacune des pages

En tant qu’expert en SEO, notre objectif n’est pas de générer du trafic, mais de générer des ventes à travers les moteurs de recherche. Il est donc crucial, si vous en avez la possibilité, de compléter cette analyse avec des données de votre département Ventes. Par exemple, les données de marge par vente pourraient vous aider à déterminer les URLs que vous devez prioriser.

Reprenons le tableau obtenu à la fin de l’étape précédente, et ajoutons toutes les données utiles pour mesurer :

  • L’exposition potentielle (volume / impressions)
  • Le trafic réel (sessions / clics)
  • Les revenus (taux de conversion / marge / revenus)

Voici un exemple de présentation de ce tableau :

Définition des pondérations

Afin de classer nos différents contenus en fonction de l’exposition potentielle, le trafic potentiel et les revenus, vous devez définir des pondérations pour chacun de ces éléments.

Je ne peux pas vous proposer de pourcentages standard, à vous de définir les pourcentages qui conviendront selon votre situation.

Standardisation

Attention, nous ne pouvons pas encore définir l’importance de chacune de nos pages. Le résultat que nous obtenons en appliquant une pondération aux données obtenues précédemment n’est pas encore valable.

Explication : Par définition les impressions seront supérieures aux clics et aux sessions. Surtout dans des industries avec des CTR faibles. Sans traitement préalable de nos données, nous risquons de surpondérer les impressions (et sous-pondérer les sessions).

Comment résoudre ce problème? En standardisant nos données! Ce procédé permet de redimensionner les variables numériques pour qu’elles soient comparables sur une échelle commune (source). Via manipulation mathématique, notre distribution de données quantitatives aura une valeur moyenne de 0 et un écart-type de 1.

Pour les plus curieux, la formule mathématique est la suivante:

X_standard = valeur normalisée
X = valeur initiale
μ = moyenne de notre distribution
σ = écart-type de notre distribution

Il est très simple d’appliquer cette formule à vos données:

Appliquez cette formule à toutes les données que vous souhaitez prendre en compte dans votre calcul. Cela permettra d’éliminer définitivement le problème de surpondération d’une métrique.

Calcul de la note

Une fois vos pondérations définies et vos valeurs standardisées calculées, vous pouvez attribuer une note à chacune de vos URLs pour déterminer son importance. Dans cet exemple, nous avons 4 métriques avec une pondération de 25% pour chacune d’entre elles, mais vous pouvez évidemment utiliser d’autres chiffres.

Cette méthodologie permet donc de placer en premier une URL qui objectivement est la meilleure : un volume de recherche plus faible, mais des impressions élevées, et surtout un CTR impressionnant.

Avec cette information, vous pourrez définir votre maillage interne d’une manière bien plus complète et pertinente qu’en se basant sur un seul critère, comme le volume de recherche. À vous de relier :

  • Depuis la page d’accueil: les pages les plus importantes
  • Depuis une catégorie: les pages les plus importantes de la catégorie en question
  • Etc.

Conclusion

Cette méthodologie est efficace et a pour avantage de pouvoir s’appliquer pour de nombreux projets. Il vous suffit simplement de l’adapter en utilisant les données les plus importantes de votre industrie. Malgré l’usage d’un concept mathématique qui peut être nouveau pour certains (la standardisation), elle est aussi simple à expliquer et à mettre en pratique avec les outils dont vous disposez.

Elle vous permettra de disposer des informations nécessaires pour construire votre maillage interne en vous basant sur le potentiel et les résultats de vos pages. Une tâche qui est parfois complexe à obtenir pour des sites de grande taille.

Il ne vous reste plus qu’à l’appliquer!

Antoine Eripret Voir tous ses articles
Antoine est un spécialiste en référencement naturel depuis 2016. Après une expérience de 3 ans et demi dans une agence à Barcelone, il est désormais SEO Lead chez Liligo. Antoine est surtout passionné par l'aspect technique du SEO et un adepte du travail efficient, afin de ne pas perdre de temps sur des analyses répétitives ou à faible valeur ajoutée.
Sujets en lien :