Débuter avec les expressions régulières (Regex)

21 juillet 2021 - 8  min de lecture - par Ashkar Gomez
Accueil > SEO Technique > Débuter avec les expressions régulières (Regex)

Les Regex sont une des compétences technniques souvent négligée en marketing. Elles peuvent être utilisées dans Google Search Console, Google Analytics et Google Data Studio pour l’extraction de données à des fins de SEO.

Cet article est entièrement consacré au concept de Regex et à ses avantages pour tirer parti de l’analyse des données dans le cadre du SEO.

La data science et l’analyse des données ont un rôle énorme dans l’avenir du SEO. Dans la pratique d’aujourd’hui, nous ne pouvons pas compter uniquement sur le SEO on-page, off-page et technique.

Le data SEO a un rôle énorme dans l’obtention du résultat désiré du positionnement des mots-clés et du trafic organique.

Regex permet d’extraire des modèles spécifiques de caractères à partir d’ensembles de données, ce qui est une compétence très importante pour de nombreux acteurs de l’espace SEO :

  • Spécialistes du SEO
  • Opérateurs Web et équipe d’analyse Web
  • Chercheurs/ingénieurs de données
  • Experts/consultants en marketing digital

Qu’est-ce qu’une Regex ?

Les Regex, communément appelé Expressions Régulières, sont l’un des outils utilisés pour la correspondance de modèles. Une Regex est une chaîne, ou une série de caractères, qui représente un modèle afin de faire correspondre, gérer et filtrer des textes.

Une chaîne Regex peut ressembler à ceci :
([0-9]+(\.[0-9]*) ?)
Elle utilise des ensembles de caractères, de symboles et d’autres éléments pour décrire un modèle. Un modèle (ou pattern) peut être un numéro de téléphone, une URL, une date ou une heure, une adresse, un identifiant tel qu’une référence de produit, ou même une phrase de texte dans une page de code.

Vous pouvez ensuite trouver les séquences dans n’importe quel texte ou liste qui correspondent au modèle que vous avez décrit.

[Étude de cas] Améliorer les classements, visites organiques et ventes avec l’analyse des fichiers de log

Au début de l’année 2017, l’équipe de TutorFair.com a sollicité les services SEO d’Omi Sido pour les aider. Leur site web luttait avec ses classements et visites organiques.

Comment la Regex est-elle utilisée en SEO ?

Dans les pratiques de SEO, cela permet de filtrer les mots-clés ou les phrases par lesquels un site Web génère du trafic. À son tour, ce filtre permet d’analyser le comportement et l’intention de recherche de vos utilisateurs. Ceci est devenu de plus en plus important depuis la mise à jour BERT du moteur de recherche de Google, qui a aidé Google à mieux identifier l’intention de l’utilisateur en utilisant la NLP.

Suite à cette mise à jour, les moteurs de recherche se concentrent désormais sur la compréhension de l’intention de l’utilisateur et classent le contenu le plus attrayant sur la première page des SERPs. Google Analytics et Google Search Console sont deux outils gratuits largement utilisés en SEO qui prennent en charge l’utilisation de la technologie Regex.

Compétences de base en matière de Regex : Opérateurs

Avant d’aller plus loin, vous devez comprendre les opérateurs pour utiliser efficacement la Regex. Les opérateurs de Regex sont divisés en quatre catégories :

  1. Jeux de caractères
  2. Caractères génériques
  3. Ancres
  4. Groupes
  5. Caractères d’échappement

Chaque opérateur représente un type de caractère ou une instruction. Voici quelques-uns des principaux opérateurs.

Classes de caractères

Les classes de caractères sont des ensembles, ou types, de caractères.

  • \d – Il correspond à un chiffre quelconque.
  • \D – Il correspond à un caractère quelconque qui n’est pas un chiffre.
  • \w – Correspond à n’importe quel « caractère de mot » (lettres, chiffres, trait de soulignement).
  • \s – Il correspond à tout espace (espaces, tabulations, …).
  • \S – Il correspond à tout caractère qui n’est pas un espace.
  • ?-i – Spécifie des correspondances sensibles à la casse pour tous les caractères suivants.

Caractères génériques

Les caractères génériques ne spécifient pas le caractère spécifique qu’ils correspondent.

  • Point (.) – Il correspond à tout caractère unique (une lettre, un chiffre ou un symbole).
  • Point d’interrogation ( ?) – Il correspond au caractère précédent 0 ou 1 fois.
  • Signe plus (+) – Il permet de faire correspondre le caractère précédent 1 fois ou plus.
  • Astérisque (*) – Il permet de faire correspondre le caractère précédent 0 ou plusieurs fois.
  • Trait vertical (|) – Crée une correspondance OU.

Ancres

Les ancres décrivent la partie du modèle que vous essayez de faire correspondre.

  • Caret (^) – Il indique que la Regex doit faire correspondre les caractères au début de la chaîne ou de la ligne, plutôt que n’importe où dans la chaîne.
  • Signe dollar ($) – Il indique que la Regex doit faire correspondre les caractères à la fin de la chaîne ou de la ligne, plutôt que n’importe où dans la chaîne.

Groupes

Les groupes sont des moyens de regrouper des éléments dans la Regex.

  • Parenthèses (()) – Il « capture » les caractères compris entre les parenthèses, qui peuvent être décrits par le modèle qui les entoure, correspondant au reste de la Regex. Vous pouvez utiliser plusieurs groupes de capture, et ils seront identifiés dans l’ordre où ils apparaissent.
  • Crochets ([]) – Il correspond à l’ensemble des caractères entourés dans n’importe quel ordre, n’importe où dans une chaîne.
  • Tiret (-) – Il est utilisé entre crochets pour indiquer une plage de caractères, comme 0-9 ou A-Z.

Échappement

Le caractère d’échappement vous permet d’utiliser un caractère littéralement même s’il est habituellement interprété comme un opérateur.

  • Barre oblique inverse (\) – Indique que le caractère adjacent doit être interprété littéralement plutôt que comme un opérateur de Regex.

Voyons maintenant quelques exemples de base de son utilisation dans Google Analytics et Google Search Console.

Comment filtrer les tableaux dans Google Analytics

Google Analytics est l’un des outils gratuits qui permet d’analyser le parcours de l’utilisateur sur votre site web à l’aide des données suivantes :

  • Audience : informations démographiques
  • Acquisition : comment l’utilisateur est arrivé sur votre site
  • Comportement : ce que l’utilisateur fait sur votre site.
  • Conversion : si l’utilisateur atteint les objectifs de vente ou de marketing que vous lui avez fixés sur votre site.

Nous pouvons utiliser Regex pour filtrer les données dans Google Analytics et comprendre le comportement de l’utilisateur.

Dans l’image ci-dessus, la Regex /ebooks/|/tools/ est utilisée pour filtrer deux pages sur les 1000 pages du site Web à l’aide du |(pipe), qui signifie « ou ». Cette chaîne peut être lue comme suit : « Trouver uniquement les pages qui contiennent soit /ebooks/ soit /tools/ ».

De la même manière, vous pouvez utiliser toutes les autres chaînes de caractères pour devenir un maître dans l’art de discerner le comportement des utilisateurs et les pages qu’ils visitent sur votre site Web.

Comment filtrer les requêtes dans Google Search Console ?

Google Search Console est l’un des outils importants comme Google Analytics. Il fournit des informations sur la façon dont Google utilise les pages dans les résultats de recherche, diagnostique les problèmes en termes de SEO technique et ajoute de la valeur en obtenant des données liées au comportement des utilisateurs.

Récemment, Google Search Console a ajouté la fonctionnalité « Regex » en avril 2021 pour améliorer le filtrage des données à un niveau avancé. Vous pouvez filtrer les modèles qui :

  • Correspondent à une Regex
  • Ne correspondent pas à une Regex

La GSC offre de nombreux services, parmi lesquels le rapport de performance se distingue. Ici, nous pouvons trouver des informations telles que :

  • Total des clics
  • Impressions totales
  • CTR moyen
  • Position moyenne
  • Requêtes (mots-clés jusqu’à 1000)
  • Pages qui sont classées
  • Pays
  • Appareils
  • Apparence de la recherche
  • Dates

Tout en haut du rapport, il y a des options de filtrage. Pour utiliser une Regex, vous devez cliquer sur l’option « +Nouveau ».

Vous utilisez une Regex pour filtrer les requêtes, les pages, les pays, les dispositifs et l’apparence de la recherche.

Voici un exemple de base de filtrage pour la phrase « agence numérique », « agence digitale » ou des phrases avec un autre texte entre numérique et agence (comme « agence de communication numérique » et « quelle est l’expertise numérique d’une agence de référencement ») en utilisant la Regex digital.+agence :

Voici les résultats :

Pourquoi utiliser une Regex ?

Bien que vous deviez d’abord apprendre le concept des chaînes de caractères et des opérateurs, la Regex peut être un nouvel outil utile pour de nombreux SEOs. Regex peut aider à identifier l’intention de recherche, l’analyse du contenu, le comportement des utilisateurs, etc.

L’avenir du SEO dépend des données et de la compréhension des problèmes techniques à effet immédiat qui doivent être traités.

Il existe de nombreux outils qui utilisent le filtrage des données pour fournir plus d’informations sur tout site Web. Il peut s’agir d’Ahrefs et de SEMrush, de crawlers comme Oncrawl, mais aussi d’outils comme Google Analytics et Google Search Console.

Lors de l’utilisation de Regex, il est nécessaire de comprendre les opérateurs et les caractères. Ensuite, les méthodologies pour en tirer profit seront claires. L’utilisation des filtres Regex nous aidera à comprendre les données disponibles afin de déterminer l’intention de recherche et de nous concentrer sur les requêtes de recherche qui amènent les utilisateurs sur votre site Web.

Oui, l’objectif du SEO est d’obtenir du trafic et de positionner des mots-clés en haut de la SERP. Mais, la priorité absolue est d’obtenir plus de conversions et de ventes. Regex peut vous aider à transformer votre site Web en une machine à convertir.

Ashkar Gomez, fondateur de 7 Eagles - Digital Marketing Company in India, a plus de 7 ans d'expérience en SEO et marketing digital. Il travaille également sur des projets dans le monde entier et fait de la consultation SEO pour les entreprises et les startups.
Sujets en lien :