Data-driven-SEO-using-the-Oncrawl-API-with-Python-250px

Data driven SEO Part III : Analyse des concurrents

22 avril 2025 - 6  min de lecture - par Andreas Voniatis
Accueil > SEO Technique > Data driven SEO : Analyse des concurrents

Nous avons précédemment examiné les données SEO techniques afin d’obtenir des recommandations techniques plus précises qui rendront le contenu de votre site web plus facile à trouver et plus pertinent pour les moteurs de recherche à l’aide de l’analyse exploratoire des données (EDA). L’EDA consiste à inspecter la nature statistique des caractéristiques SEO du site, telles que le nombre de mots.

Les audits sur un seul site ne fournissent pas d’informations concurrentielles

Les données SEO techniques relatives à un seul site sont utiles pour acquérir une compréhension scientifique et vous apportent une certaine expérience empirique qui vous permettra d’obtenir l’adhésion de vos collègues.

Cependant, elles sont assez limitées dans la mesure où elles manquent de contexte et donc d’informations permettant de dégager un avantage concurrentiel.

Prenons par exemple la métrique relative au contenu quasi-dupliqué que nous avons examinée la dernière fois.

Data driven SEO_near duplicate content strategy

Nous constatons que la moyenne pour le client est de 80 %, mais par rapport au marché ou aux concurrents du secteur, est-ce satisfaisant ? Insuffisant ? Dans la moyenne ? Devrions-nous nous inquiéter ?

Audit de vos concurrents

Quel que soit le facteur technique de positionnement, nous ne pouvons pas commencer à répondre à ces questions sans données à comparer.

Où trouver ces données ? En crawlant vos concurrents. Bien sûr, certains secteurs sont beaucoup plus concurrentiels que d’autres et mettent en place des mesures anti-crawl (même à l’encontre de leurs propres équipes SEO !), cette option n’est donc pas toujours envisageable.

Cependant, si vous le pouvez, vous devriez au moins essayer de crawler vos concurrents et d’obtenir les données. Une fois cela fait et exporté, vous pouvez les importer avec Python en combinant un bloc itérateur avec la fonction Pandas read_csv comme ci-dessous :

import pandas as pd
import glob
import os
# Define the folder path containing your oncrawl CSV export files
folder_path = "path/to/your/folder"  # Change this to your actual folder path
# Get a list of all CSV files in the folder
oncrawl_csv_files = glob.glob(os.path.join(folder_path, "*.csv"))
# Read and concatenate all CSV files into a single DataFrame
oncrawl_raw_df = pd.concat((pd.read_csv(file) for file in oncrawl_csv_files), ignore_index=True)
# Display the combined DataFrame
display(oncrawl_raw_df)

Comparaison des distributions

Une fois les données importées dans votre notebook Python, vous pouvez commencer à explorer chaque fonctionnalité SEO technique, mais cette fois-ci avec plusieurs sites web.

Vous pouvez ainsi comparer votre site à d’autres sites web de votre espace concurrentiel.

Par exemple, le graphique ci-dessous compare la distribution statistique du ratio entre le nombre de liens internes et le nombre de mots dans le corps du texte pour plusieurs sites web de bijoux de luxe.Data driven SEO_links word count 1

Code à générer :

from plotnine import ggplot, aes, geom_density, facet_grid, labs
# Create the density plot faceted by 'site' (arranged by rows)
feature_plot = (
    ggplot(oncrawl_raw_df, aes(x="links_word_count", color ="links_word_count")) +
    geom_density(alpha=0.5) +
    facet_grid("site ~")  # Facet by 'site', arranged in rows
)
display(feature_plot)

Veuillez noter que cette fonctionnalité ne fait actuellement pas partie de l’analyse Oncrawl, mais que je l’ai dérivée de deux fonctionnalités existantes : le nombre de mots et le maillage interne.

J’ai procédé ainsi car j’avais l’hypothèse que les moteurs de recherche souffriraient davantage du maillage interne si la page contenait plus de contenu textuel, c’est-à-dire moins de liens vers d’autres pages.

Comme le montre le graphique, nous obtenons une fourchette dans laquelle les sites Monica Vinader et D Louise affichent des ratios assez constants, inférieurs à 10, ce qui indique des modèles de conception cohérents.

Le site Astrid & Miyu, en revanche, est le moins cohérent, avec des ratios compris entre 10 et 30.

En termes de biais, tous les sites, à des degrés divers, présentent un biais positif, la plupart des données se situant à gauche, c’est-à-dire que les valeurs sont principalement faibles et que les valeurs aberrantes sont plus élevées.

À l’exception du site Daisy London Jewellery, la plupart des sites sont multimodaux en ce qui concerne le rapport entre les liens et le nombre de mots, c’est-à-dire que les valeurs les plus fréquentes sont représentées par plusieurs pics.

Cela indique clairement l’existence de différents modèles de conception de contenu qui présentent des comportements similaires et, par conséquent, les valeurs se regroupent autour de ces types de modèles, par exemple les catégories de produits (pages de liste de produits, PLP) et les articles (pages de détail des produits, PDP).

[Ebook] Data SEO : La prochaine grande aventure

Découvrez les outils et technologies du Data SEO et apprenez quelles connaissances et compétences les SEOs doivent acquérir pour maîtriser le SEO prédictif et automatisé.

Les différents pics varient selon les sites, le site Monica Vinader présentant le ratio le plus faible de maillage interne par nombre de mots, tandis que le site Astrid & Miyu présente le ratio le plus élevé. C’est généralement un signe positif, car cette variation est susceptible d’expliquer la variation des performances.

Nous ne connaissons pas l’orientation des performances, c’est-à-dire si un ratio plus élevé de maillage interne par nombre de mots est favorable ou défavorable aux performances. Cependant, nous disposons désormais d’un indice.

Analyse de régression

L’analyse de régression permet de comprendre l’orientation des variations de performance en comparant les valeurs avec les performances.

Il est peu probable que les concurrents de vos clients acceptent de divulguer volontairement leurs données analytiques de performance pour vous aider. Vous pouvez donc utiliser des sources tierces de données de trafic SEO utilisant l’URL comme clé principale et la fonction de fusion Pandas, comme suit :

import pandas as pd

# Perform a left merge on the "url" column
regression_df = oncrawl_raw_df.merge(seo_analytics_df, on="url", how="left")

# Display the first few rows of the merged DataFrame
display(regression_df)

Dans le cas du graphique ci-dessous, nous poursuivons avec l’exemple du ratio entre le maillage interne et le nombre de mots :

Data driven SEO_links word count 2

Nous constatons que dans le domaine de la joaillerie de luxe au Royaume-Uni, il est avantageux d’avoir moins de maillage interne par nombre de mots.

Cela peut sembler évident pour les lecteurs les plus expérimentés en matière de SEO, mais disposer de données pour visualiser et étayer vos recommandations facilitera considérablement votre travail.

Bien qu’il soit de plus en plus à la mode de critiquer les positions dans les classements comme indicateur de performance SEO, cela fonctionne encore étonnamment bien pour obtenir des avantages concurrentiels. Et même à l’ère de la recherche par IA, vous devez toujours maîtriser les bases du SEO technique.

Vous pourriez même vous surprendre vous-même avec les informations que vous découvrirez en parcourant les fonctionnalités offertes par Oncrawl.

Quantification des avantages techniques en termes de performances

Bien entendu, plutôt que de tracer et d’afficher deux graphiques pour chaque fonctionnalité, le machine learning peut accélérer ce processus en modélisant les données afin de quantifier l’avantage en termes de classement offert par chaque fonctionnalité SEO technique.

Le processus type fonctionne comme suit :

  1. Nettoyage de vos données : suppression des lignes et colonnes nulles.
  2. Transformation de vos données : redimensionnement de vos données afin de normaliser les variations, ce qui aide vos modèles à corréler les différences. Particulièrement important pour les modèles linéaires.
  3. Division en test et entraînement : utilisation de 80 % des données pour entraîner le modèle et test sur les 20 % restants.
  4. Choix du modèle : pour déterminer quels types de modèles produisent les prévisions les plus précises.
  5. Validation croisée : découper et segmenter les données en ensembles d’entraînement et de test afin d’obtenir le meilleur modèle moyen.
  6. Évaluation : quantification du taux d’erreur moyen du modèle.
  7. Prédire : Utilisez le modèle pour prévoir les valeurs de performance si la caractéristique technique a la valeur X.

Le code correspondant à ce qui précède est assez long et ne sera donc pas abordé ici.

Andreas Voniatis Voir tous ses articles
Andreas Voniatis est un vétéran du SEO devenu data scientist et fondateur d'Artios, un cabinet de conseil en référencement pilotant la croissance organique de startups de premier plan. Il est également l'auteur de Data-Driven SEO, publié par Springer APress aet l'instructeur de «Data science for SEO» sur O'Reilly Media.
Sujets en lien :