Qu’est-ce que l’indexation sémantique latente ?

10 avril 2020 - 7  min de lecture - par Alex Chenery-Howes
Accueil > SEO Technique > Qu’est-ce que l’indexation sémantique latente ?

L’indexation sémantique latente (LSI) fait depuis longtemps l’objet de débats parmi les spécialistes du search marketing. Googlez le terme « indexation sémantique latente » et vous rencontrerez autant de partisans que de sceptiques. Il n’existe pas de consensus clair sur les avantages du LSI dans le contexte du marketing des moteurs de recherche. Si le concept ne vous est pas familier, cet article résumera le débat sur le LSI, afin que vous puissiez décider de sa place dans votre stratégie d’optimisation des moteurs de recherche.

Qu’est-ce que l’indexation sémantique latente ?

LSI est un processus que l’on retrouve dans le traitement du langage naturel (NLP). Le NLP est un sous-ensemble de la linguistique et de l’ingénierie de l’information, qui se concentre sur la façon dont les machines interprètent le langage humain. La sémantique distributionnelle est un élément clé de cette étude. Ce modèle nous aide à comprendre et à classer des mots ayant des significations contextuelles similaires au sein de grands ensembles de données.

Développé dans les années 1980, le LSI utilise une méthode mathématique qui rend la recherche d’informations plus précise. Cette méthode fonctionne en identifiant les relations contextuelles cachées entre les mots. Elle peut vous aider à la décomposer de cette manière :

  • Latent → Caché
  • Sémantique → Relations entre les mots
  • Indexation → Recherche d’informations

Comment fonctionne l’indexation sémantique latente ?

LSI fonctionne en utilisant l’application partielle de la Décomposition en valeurs singulières (DVS). La DVS est une opération mathématique qui réduit une matrice à ses parties constitutives pour des calculs simples et efficaces.

Lors de l’analyse d’une chaîne de mots, LSI supprime les conjonctions, les pronoms et les verbes courants, également appelés « stop words ». Cela permet d’isoler les mots qui constituent le « contenu » principal d’une phrase. Voici un exemple rapide de ce que cela peut donner :

Ces mots sont ensuite placés dans une Matrice de documents terminologiques (TDM en anglais). Une TDM est une grille 2D qui répertorie la fréquence à laquelle chaque mot (ou terme) spécifique apparaît dans les documents d’un ensemble de données. Des fonctions de “pesage” sont ensuite appliquées à la TDM. Un exemple simple consiste à classer tous les documents qui contiennent le mot avec une valeur de 1 et tous ceux qui ne le contiennent pas avec une valeur de 0. Lorsque des mots apparaissent avec la même fréquence générale dans ces documents, on parle de co-occurrence. Vous trouverez ci-dessous un exemple de base de TDM, et la façon dont il évalue la co-occurrence dans plusieurs phrases :

L’utilisation de l’SVD nous permet d’approcher les modèles d’utilisation des mots dans tous les documents. Les vecteurs SVD produits par LSI permettent de prédire le sens avec plus de précision que l’analyse des termes individuels. En fin de compte, LSI peut utiliser les relations entre les mots pour mieux comprendre leur sens, ou leur signification, dans un contexte spécifique.

Comment l’indexation sémantique latente s’est-elle retrouvée impliquée dans le SEO ?

Dans ses années de formation, Google a découvert que les moteurs de recherche pouvaient classer les sites web en fonction de la fréquence d’un mot-clé particulier. Cependant, cela ne garantit pas le résultat de recherche le plus pertinent. Google a donc commencé à classer des sites web qu’il considérait comme “de confiance” en matière d’information.

Au fil du temps, les algorithmes de Google ont permis de filtrer avec une plus grande précision les sites web de mauvaise qualité et non pertinents. Par conséquent, les spécialistes du marketing doivent comprendre le sens d’une recherche, au lieu de se fier aux mots exacts utilisés. C’est pourquoi Roger Montti a décrit LSI comme des « roues d’entraînement pour les moteurs de recherche ».

La signification d’une requête de recherche est étroitement liée à l’intention qui la sous-tend. En 2019, Google a mis à jour ses lignes directrices pour l’évaluation de la qualité des recherches. Dans ces lignes directrices, elles introduisent quatre catégories utiles pour l’intention de l’utilisateur :

  • Know Query – Il s’agit de la recherche d’informations sur un sujet. Une variante de cette méthode est la requête « Know Simple », qui permet aux utilisateurs d’effectuer une recherche en ayant une réponse particulière à l’esprit.
  • Do Query – Elle reflète le désir de s’engager dans une activité particulière, telle qu’un achat en ligne ou un téléchargement. Toutes ces requêtes peuvent être définies par un sens d’interaction
  • Website Query – C’est lorsque les utilisateurs recherchent un site ou une page spécifique. Ces recherches indiquent une connaissance préalable d’un site web ou d’une marque particulière.
  • Visit-in-Person Query – L’utilisateur recherche un lieu physique, tel qu’un magasin de briques et mortier ou un restaurant.

Les principes fondamentaux de LSI – définir le sens contextuel d’un mot dans une phrase – ont donné à Google un avantage concurrentiel. Cependant, l’idée s’est répandue que les « mots-clés LSI » étaient soudainement un ticket d’or pour le succès du SEO.

Les « mots-clés LSI » existent-ils vraiment ?

De nombreuses publications notables restent de fermes défenseurs des mots-clés du LSI. Pourtant, plusieurs sources, telles que l’analyste John Mueller, pensent qu’ils sont un mythe. Ces sources ont commencé à soulever les points suivants :

  • LSI a été développé avant le World Wide Web et n’était pas destiné à être appliqué à un ensemble de données aussi vaste et dynamique.
  • Le brevet américain sur l’indexation sémantique latente, accordé à une organisation nommée Bell Communications Research Inc. en 1989, aurait expiré en 2008. Par conséquent, selon Bill Slawski, l’utilisation de LSI par Google s’apparenterait à « l’utilisation d’un appareil télégraphique intelligent pour se connecter au web sur mobile ».
  • Google utilise RankBrain, une méthode d’apprentissage automatique qui transforme des volumes de texte en « vecteurs » – des entités mathématiques qui aident les ordinateurs à comprendre le langage écrit. RankBrain permet à Google de disposer d’un ensemble de données en constante expansion, ce qui lui donne un avantage sur LSI.

En fin de compte, LSI révèle une vérité à laquelle les spécialistes du marketing devraient adhérer : l’exploration du contexte unique d’un mot nous aide à mieux comprendre l’intention de l’utilisateur que les mots-clés. Cependant, cela ne confirme pas nécessairement que Google se classe sur la base de LSI. Par conséquent, pourrait-on dire sans risque que LSI travaille dans le domaine du référencement comme une “philosophie”, plutôt que comme une science exacte ?

Revenons à la citation de Roger Montti sur LSI comme « roues d’entraînement pour les moteurs de recherche ». Une fois que vous avez appris à faire du vélo, vous avez tendance à enlever les roues d’entraînement. Peut-on supposer qu’en 2020, Google n’aura plus besoin de roues d’entraînement ?

Nous devons également tenir compte de la récente mise à jour de l’algorithme de Google. En octobre 2019, Pandu Nayak, vice-président de la recherche, a annoncé que Google avait commencé à utiliser un système d’intelligence artificielle appelé BERT (Bidirectional Encoder Representations from Transformers). Affectant plus de 10 % de toutes les requêtes de recherche, il s’agit de l’une des plus importantes mises à jour de Google de ces dernières années.

Lors de l’analyse d’une requête de recherche, BERT considère un seul mot par rapport à tous les mots de cette phrase. Cette analyse est bidirectionnelle, en ce sens qu’elle considère tous les mots précédant ou suivant un mot spécifique. La suppression d’un seul mot pourrait avoir un impact considérable sur la façon dont BERT comprend le contexte unique d’une phrase.

Cela contraste avec LSI, qui omet tout mot d’arrêt dans son analyse. L’exemple ci-dessous montre comment la suppression des mots d’arrêt peut modifier la façon dont nous comprenons une phrase :

Bien qu’il s’agisse d’un mot d’arrêt, « trouver » est le point central de la recherche, que nous définirions comme une requête « visite en personne ».

Que doivent donc faire les spécialistes du marketing ?

Au départ, on pensait que LSI pouvait aider Google à faire correspondre le contenu avec les requêtes pertinentes. Cependant, il semble que le débat autour de LSI n’ait pas encore abouti à une conclusion unique. Malgré cela, les responsables marketing peuvent encore prendre de nombreuses mesures pour s’assurer que leur travail reste stratégiquement pertinent.

Tout d’abord, les articles, les textes sur le web et les campagnes payantes devraient être optimisés pour inclure des synonymes et des variantes. Cela permet de tenir compte de la façon dont des personnes ayant des intentions similaires utilisent le langage différemment.

Les spécialistes du marketing doivent continuer à écrire avec autorité et clarté. C’est une nécessité absolue s’ils veulent que leur contenu résolve un problème spécifique. Ce problème peut être un manque d’information ou la nécessité d’un certain produit ou service. Une fois que les spécialistes du marketing ont fait cela, cela montre qu’ils comprennent vraiment l’intention des utilisateurs.

Enfin, ils devraient également utiliser fréquemment des données structurées. Qu’il s’agisse d’un site web, d’une recette ou d’une FAQ, les données structurées fournissent à Google le contexte nécessaire pour donner un sens à ce qu’il crawlent.

Sujets en lien :