[Webinar Digest] SEO in Orbit: Rankbrain, AI, machine learning et l’avenir de la recherche

13 novembre 2019 - 18  min de lecture - par Rebecca Berbel
Accueil > Webinaire > SEO in Orbit: Rankbrain, AI et machine learning

Le webinaire « Rankbrain, AI, machine learning et l’avenir de la recherche » fait partie de la série SEO in Orbit, et a été diffusé le 19 juin 2019. Dans cet épisode, Bill Slawski met à profit sa connaissance des brevets de Google afin de décomposer les algorithmes de recherche utilisés aujourd’hui et s’intéresse au futur de la multinationale. Rejoignez-nous pour dans la découverte du SEO technique de demain !

SEO in Orbit est la première série à envoyer le SEO dans l’espace. Tout au long de la série, nous avons débattu sur le présent et le futur du SEO technique avec certains des experts les plus qualifiés et avons envoyé leurs meilleurs conseils dans l’espace le 27 juin 2019.

En replay ici :

Présentation de Bill Slawski

Bill n’est pas un informaticien ni un mathématicien. Il dispose d’un diplôme en anglais et d’un doctorat en droit. Il lit des brevets sur les moteurs de recherche depuis 2005 afin d’en apprendre plus sur le search, les internautes et le web. La plupart de ces brevets couvrent des algorithmes qui ont pour objectif de résoudre des problèmes particuliers. Bill juge certains de ces brevets très utiles pour performer en SEO.

Cet épisode a été animé par François Goube, serial entrepreneur, co-fondateur et CEO d’OnCrawl.

Qu’est-ce que l’IA et le machine learning ?

Il y a beaucoup de définitions différentes de l’IA.

Une grande partie du travail de Google se concentre sur les réseaux neuronaux, ou plus simplement, ce qui conduit à l’apprentissage automatique (machine learning). Les algorithmes utilisent un échantillon idéal de données marqué de façon à souligner certaines caractéristiques . Ensuite, cet ensemble de données va être envoyé sur différents flux et l’algorithme va adapter ses analyses et ses comportements en réponse, en se fondant sur l’analyse de données empiriques provenant de l’échantillon de base. C’est ce que l’on nomme le “machine learning”.

Les zones couvertes par l’IA

– Langage naturel

L’IA peut couvrir différents domaines, comme une meilleure compréhension du langage naturel. Un nombre important de techniques entre en jeu et beaucoup des choses venant de Google illustrent l’analyse du langage naturel.

– Capacité à répondre aux questions

Un récent brevet tente de combler les inconnus dans les schémas de réponses aux questions.

Cela explique comment Google peut utiliser un knowledge graph pour comprendre ce qui pourrait être la réponse à une question. Par exemple, s’il manque des informations ou si les données des entités sont incorrectes, Google peut essayer de deviner la réponse sur la base d’informations associées à des faits connexes.
Ce qui est intéressant avec ce brevet, ce n’est pas que Google fasse des estimations pour répondre aux questions, mais qu’il fournisse les explications de ces mêmes estimations.

– Imitation de la pensée humaine (réseaux neuronaux)

Le machine learning est basé sur l’intelligence artificielle, sur l’imitation de la pensée humaine. Les réseaux de machine learning sont appelés réseaux neuronaux parce qu’ils sont conçus pour tenter de reproduire le fonctionnement des neurones du cerveau humain.

Rankbrain

– Relation entre l’Hummingbird et le contexte des mots

Rankbrain et Hummingbird sont des approches de réécriture des requêtes. Hummingbird a essayé de mieux comprendre le contexte d’une requête en analysant tous les mots.. Auparavant, Google ne regardait que les mots les uns à côté des autres pour interpreter le contexte ; Hummingbird regarde immédiatement au-delà des mots. Il peut même prendre en compte des phrases complètes dans les requêtes conversationnelles. Hummingbird, de par son objectif d’analyse, a voulu prendre en considération tous les mots d’une requête afin d’en définir le contexte.

– Réécriture des requêtes dans Rankbrain avec une approche d’imbrication de mots

Contrairement à Hummingbird, Rankbrain utilise une approche d’intégration de mots. Il examine un court passage textuel et se retrouve capable de déterminer s’il manque des mots. Le logiciel s’entraîne sur de larges ensembles de données (200 milliards de mots).

– Trouver les mots manquants dans une requête

Par exemple, la requête « New York Times puzzle » peut être interprétée comme ayant le mot « crossword » manquant. Rankbrain ajoute le mot à la requête et retourne les résultats des mots croisés du New York Times à l’utilisateur, puisque c’est probablement ce qu’il veut.

– Est-il possible d’optimiser son site pour Rankbrain ?

Il est important de noter que vous ne pouvez pas optimiser les pages pour Rankbrain. Certains SEOs ont écrit des articles disant que vous pouvez. Cependant, d’après tout ce que Bill a pu constater sur l’algorithme, il s’agit d’un processus de réécriture de requête, et non d’un élément qui affecte l’évaluation d’une page.

Autres algorithmes de Google qui utilisent le machine learning

Google n’a pas un seul « algorithme » qui pilote le moteur de recherche. Il a beaucoup d’algorithmes différents qui contribuent à son fonctionnement. Rankbrain est l’un d’eux.

– L’utilisation des notes de qualité dans une catégorie

Cela peut signifier, par exemple, que lorsque Google détermine qu’il y a beaucoup de résultats du type informationnel pour une requête, au lieu de classer les pages en fonction du score de recherche ou des notes d’autorité comme PageRank, il peut envisager des catégories. À partir de là, Google peut donner des ratios qualité dans les catégories de sites Web. Cette pratique permettra d’obtenir un ensemble plus diversifié de résultats et de faire en sorte que des résultats de meilleure qualité puissent être obtenus plus rapidement et atteindre plus vite les meilleurs résultats.

– Utiliser la popularité des pages pour les résultats avec intention de navigation

Ce type d’algorithme de classement favorise les pages les plus populaires, particulièrement pour les résultats de type “navigational”. Lorsque les utilisateurs savent à l’avance qu’une page est susceptible de les intéresser, celle-ci aura tendance à obtenir un meilleur classement.

– L’influence du taux de clic dans les SERPs

Les notes de qualité des catégories suggèrent également que les pages qui sont souvent sélectionnées dans les résultats de recherche sont des pages de bonne qualité.

Cependant, bien qu’une approche de score de qualité par catégorie soit considérée comme du machine learning, ce n’est pas du Rankbrain.

Rankbrain: répondre aux besoins contextuels des utilisateurs

Rankbrain essaie d’interpréter ce qui peut éventuellement manquer dans une requête. L’aspect le plus important de Rankbrain est qu’il tente de répondre aux besoins des utilisateurs : qu’est-ce que cette personne voulait vraiment dire lorsqu’elle a entré la requête dans le moteur ?

Anciennes requêtes par mot clé versus requêtes aujourd’hui vocales et conversationnelles

Si l’on décide de se pencher vers les requêtes orales et conversationnelles, il y aura plus de mots que par le passé.

En tant qu’utilisateur, vous essayez de deviner les mots que vous devez utiliser afin de trouver l’information dont vous avez besoin. Si vous dites ce que vous voulez, Google devrait être en mesure de l’analyser et de déterminer ce que vous voulez probablement dire. C’est le rôle de Rankbrain.

Approches tirées du traitement du langage naturel

L’une des choses que nous voyons, c’est que Google accorde beaucoup plus d’attention au traitement du langage naturel.

– Neural Matching

Danny Sullivan a tweeté sur ce qu’il appelle le “Neural Matching

Last few months, Google has been using neural matching, –AI method to better connect words to concepts. Super synonyms, in a way, and impacting 30% of queries. Don’t know what « soap opera effect » is to search for it? We can better figure it out. pic.twitter.com/Qrwp5hKFNz

— Danny Sullivan (@dannysullivan) September 24, 2018

Selon lui, c’est un moyen de mieux comprendre les mots dans les pages et le sens de ces mots dans leur contexte. Il a donné quelques exemples de la façon dont un mot peut signifier trois ou quatre choses différentes selon la position que celui-ci occupe dans une phrase.

– Imbrication des mots

Google a publié des brevets sur l’utilisation d’une approche de type Word embedding (comme dans Rankbrain) pour de plus grandes quantités de texte, comme des pages web.

– Cadres sémantiques

Un cadre sémantique correspond à l’utilisation d’un langage idéal pour une situation donnée. Dans chaque situation, une certaine langue est utilisée. Par exemple, les points dans le contexte d’une hypothèque ou d’un achat immobilier n’ont pas la même signification que les points dans les jeux de dés ou de société.

Si vous comprenez le cadre, vous pouvez mieux comprendre le contexte des mots.

Cela peut aussi aider à différencier les mots dont le sens diffère d’une situation à l’autre. « Cheval », par exemple, ne signifie pas la même chose pour un cavalier que pour un charpentier.

Utiliser le machine learning pour identifier un auteur par son style d’écriture

Il est assez facile pour une machine d’identifier le style d’écriture d’un individu. Il existe un parallèle entre cette classification et les classifications thématiques du contenu en raison des styles standardisés dans des secteurs telles que l’immobilier, le sport, etc.

En tant qu’étudiant en anglais, Bill a analysé la littérature et s’est penché sur les différentes façons dont les auteurs s’expriment, et pourquoi.

– Brevet sur notes d’auteur basées sur la fréquence de citation

Google a un brevet concernant le score des auteurs. Pour noter les auteurs, l’un des facteurs est la fréquence à laquelle ils sont cités par d’autres auteurs.

– Google Books N-Gram Viewer

Google fait beaucoup de travail avec les modèles linguistiques jusqu’à scanner un grand nombre de livres. La visionneuse N-Gram permet de voir comment la popularité d’une phrase évolue au fil des années..

– Brevet sur notes de qualité par N. Panda, qui utilise des modèles linguistiques

Le brevet Quality Score de N. Panda parle de l’utilisation de N-gram et de la construction de modèles de langage pour comprendre la qualité des pages web en fonction de leur comparaison avec d’autres modèles linguistiques.

C’est un excellent exemple de machine learning dans la technologie des moteurs de recherche. Nous disposons d’un ensemble de données sur les pages déjà notées, et nous comparons les nouvelles pages à celles basées sur les données de l’échantillon original.

Ce type de modèle de langage peut également être utilisé pour comprendre le style d’écriture de différents auteurs.

Le machine learning du futur avec des données structurées

Le machine learning est également évident dans la façon dont Google gère les entités, à la fois dans la traduction ainsi que dans l’apparence de ce que Cindy Krum a nommé “Fraggles”.

– Réponses basées sur des extraits et renforcement du contexte textuel

Un autre brevet parle de passages de réponses, dans lequel Google propose un procédé permettant d’utiliser les passages de texte trouvés sur les pages web et de fournir des réponses aux questions.

–Vérification des faits et de la consistance

L’utilisation de Schema assure la redondance de l’information. Google dispose ainsi d’un moyen pour vérifier la cohérence des informations contenues dans une page web en comparant les informations textuelles avec celles fournies dans la balise structure.

C’est la même chose qui se produit sur Maps où Google regarde le nom, l’adresse et le numéro de téléphone.

L’uniformité de l’information fournit un niveau de confiance qui rend potentiellement la réponse correcte.

– Pages factuelles et pages how-to

À mesure que Google introduit des supports Schema pour des page FAQ et How-to, nous les voyons évoluer vers des nouveaux procédés et amener les webmasters à intégrer des schémas qui reflètent le texte des pages.

Des stratégies pour comprendre le contexte sur les pages web

Google a pris d’autres mesures pour essayer de mieux comprendre le contenu des pages web. En voici quelques-unes :

– Utilisation des bases de connaissance et termes contextuels

Google Patents ont indiqué qu’ils pourraient examiner les bases de connaissances et recueillir des définitions de termes contextuels. Ils seront ensuite en mesure de rechercher la présence de ces termes sur une page web afin d’aider à déterminer quelle signification contextuelle d’un mot est la plus probable.

Une page évoquant les chevaux peut contenir des mots comme « selle », alors que des pages sur d’autres types de chevaux peuvent contenir des mots comme « charpente ».

– Indexation basée sur les phrases

Une autre approche de l’apprentissage sémantique pour comprendre des sujets sur des pages datés de 2004. L’indexation par phrases n’est pas seulement ancienne, elle fait aussi l’objet d’au moins 20 brevets et a été mise à jour et modifiée à plusieurs reprises. Pour Bill, l’indexation basée sur l’expression est quelque chose qui a beaucoup d’importance dans les algorithmes de Google.

– Construction d’un index inversé de phrases qui indiquent une thématique

L’un des brevets associés à l’indexation par phrases décrit la création d’un index inversé des phrases et qui sont prédictives des sujets. Par exemple, des expressions telles que « Président des États-Unis », « Secrétaire d’État » ou « Entretien de Rose Garden », sont prédictives d’un sujet sémantique de la « Maison-Blanche ».

Connaissances du sujet des webmasters dans Schema

Google développe des choses comme Schema mais les définitions décrites par Schema sont fournies par les webmasters. De cette façon, les webmasters sont en mesure de contribuer à la construction des graphiques de connaissance avec les moteurs de recherche.
Par exemple, Google a ajouté le « knows-about  » comme un aspect de Schema. Cependant, les webmasters sont ceux qui indiquent que les avocats peuvent connaître le droit maritime ou le droit des brevets, ce qui les aide à remplir le graphique des connaissances.

La représentation mécanique des connaissances est le fruit d’un effort de collaboration.

Évolution de la recherche et des pratiques SEO vétustes

– Répétition de mots dans le texte alt

Signaler deux fois à Google le nom d’une photo n’aide pas au moteur à le comprendre deux fois mieux. En fait, il est même possible que cela réduise la valeur estimée de la page.

– LSI : destiné pour utilisation avec des bases de données petites et stables

Les créateurs d’outils n’arrêtent pas de conseiller aux SEOs d’utiliser des techniques anciennes. Un exemple est l’indexation latente sémantique (LSI en anglais). LSI a été conçue en 1989. Elle était destinée à l’utilisation des petites bases de données qui n’ont pas la taille d’internet et qui ne subissent pas non plus une croissance aussi rapide. Chaque fois que vous souhaitez appliquer LSI, vous deviez obtenir la dernière version de la base de données. Si vous continuiez à ajouter des informations à la base il faut l’appliquer de nouveau. Par conséquent, LSI n’est pas très utile pour Internet.

– TF-IDF : pour utilisation avec un corpus complet uniquement

TF-IDF (fréquence du terme vs fréquence dans le document d’index) est encore un exemple. TF-IDF marche correctement lorsque vous avez accès au corpus complet des informations en train d’être indexées, dans le cas présent, la totalité du web. Il faut utiliser TF-IDF afin de déterminer quels mots sont les plus communs et lesquels sont rares, par rapport au corpus entier. Mais si vous n’utilisez qu’une partie du corpus, par exemple les top 10 des pages les mieux positionnées, vous n’êtes plus en mesure d’établir la vraie fréquence des termes.

Cela a des effets importants sur la fiabilité de votre analyse.

[Étude de cas] Améliorer la visibilité via une crawabilité optimisée pour Googlebot

Paris Match a fait face à une problématique claire : auditer son site en profondeur, identifier ses forces et faiblesses, déterminer ses priorités et corriger les facteurs bloquants au crawl de Google. Les problématiques SEO du site Paris Match sont celles d’un site média en ligne.

Les attentes des éditeurs de sites web et les capacités de Google : le besoin de communication de la part de Google

Malgré diverses annonces récentes, nous ne pouvons pas être certains que le markup de pagination n’est pas utile pour les moteurs de recherche.

Même si le markup de pagination n’est plus utilisé pour gérer le contenu dupliqué sur les pages, nous avons toujours des attentes par rapport au comportement de Google. Google doit pouvoir comprendre qu’il s’agit de pages en série. Des annonces comme celle-ci témoignent de la difficulté à savoir à quel point Google est (ou non) compétent dans ce qu’il fait.

Utilisation de mots avec une concomitance fréquente

L’astuce technique préférée de Bill concerne les mots avec une concomitance fréquente qui se positionnent bien par rapport à un mot clé ciblé. Il s’assure d’incorporer ces mots dans le contenu, tant dans le corps du texte que dans les textes de référence qui pointent vers sa page. Cela permet de profiter des occurrences dans les textes de références, qui seraient traitées par les moteurs de recherche comme des « liens venant d’experts ».

Il s’agit d’une stratégie basée sur l’indexation des phrases.

– Probabilité statistique de la concomitance des phrases

Le brevet basé sur l’indexation des phrases a été mis à jour il y a environ deux ans. Cette approche utilise désormais le nombre de termes proches qui se trouve sur la page afin de la positionner.

Néanmoins, si ce nombre de mots excède un seuil de probabilité statistique, la page risque d’être marquée comme spam. Par exemple, si vous avez scrapé un nombre important de pages sur un sujet et les avez combinées sur une seule page, vous aurez trop de mots identiques pour que cela soit arrivé naturellement.

Bill se base sa méthode de recherche de mots clés sur ces informations. Il examine plusieurs pages similaires et crée une liste de phrases ou mots identiques qui sont fréquemment concomitants. Il en utilise peut-être quelques-uns sur sa propre page, même s’il n’a pas l’intention de positionner la page sur ces mots-clés. Ceci permet de construire du contenu pertinent pour les mots clés qu’il cible.

LSI versus utilisation des synonymes ou du contenu sémantiquement proche

L’excitation autour de LSI est l’un des sujets favoris de Bill, en partie parce que le terme de LSI est quelque peu gênant. Ce que beaucoup de personnes veulent dire lorsqu’elles parlent de LSI n’a rien à voir avec l’indexation latente sémantique. À la place, elles suggèrent simplement d’ajouter aux pages des synonymes ou du contenu lié sémantiquement.

L’index inversé basé sur les phrases ainsi que les bases de connaissances indiquent qu’il existe bien des mots “utiles”. Il y a des sources que vous pouvez consulter afin de trouver des mots concomitants sur les pages bien positionnées pour vos mots-clés. En revanche, certains mots qui semblent être des synonymes ne le sont pas toujours pour Google.

Indexation rapide avec l’outil de soumission d’URLs

L’outil de soumission d’URLs dans la nouvelle version de la Search Console est une méthode rapide pour faire indexer ses pages. Bill a déjà observé des mises à jour qui ont été propagées dans les pages de résultats en seulement quelques minutes.

Ce que Bill souhaite dans un futur markup : plus d’information pour les brevets

Question du public : Quel markup Schema souhaiteriez-vous que Google ajoute ?

Comme il écrit beaucoup sur les brevets, Bill aimerait voir une meilleure façon de représenter les différentes caractéristiques d’un brevet, dont :
Les classes (ce que le brevet est censé traiter)
Nom du brevet, même si le Schema existant « main entity of page » pourrait remplir cette fonction

Comme Google permet déjà de chercher sur la base des éléments Schema, le but serait de pouvoir améliorer la recherche des brevets, afin que les utilisateurs puissent demander à voir les brevets applicables dans certaines catégories.

Optimisations pour les moteurs de réponses : le futur du SEO ?

Question du public : Pensez-vous que le SEO deviendra AEO (Answer Engine Optimisation, ou l’optimisation pour les moteurs de réponses) ?

Bill pense que, d’une certaine façon, le SEO a toujours été AEO.

– Vieilles indications de Google comme moteur de réponses

Nous ne vivons pas nécessairement une évolution. Il y a des indications veilles de 15 ans qui mettent en avant le fait que Google avait pris cette voie. Par exemple :

  • 2004 : Fonctionnalité dictionnaire qui permettait aux utilisateurs de chercher le sens d’un mot
  • 2005 : « Just the facts » article sur le blog de Google qui montrait le premier featured snippet (alors appelé une « réponse directe ») qui n’était pas fourni par l’affichage des dix liens bleus mais qui nécessitait une réponse textuelle.

– Sergey Brin : brevet pour un algorithme afin de comprendre les faits et les relations entre les faits

Une autre indication que Google en tant que moteur de réponses n’est pas une idée nouvelle se trouve dans le brevet de Sergey Brin sur un algorithme qui permettrait de comprendre les faits et les relations entre les faits. Ce brevet inclut une référence de cinq livres, les titres, les éditeurs, les auteurs, et ainsi de suite.

La théorie est qu’un bot pourrait crawler le web pour chercher ces livres et–

[Interruption par OK Google]

– Filigrane audio

Il existe aussi un concept de filigrane audio qui profite des fréquences de haute intensité. En dehors du fait qu’ils sont en dehors du champ de l’audition humaine, les chiens et les ordinateurs seraient capables de les identifier. Ce filigrane pourrait permettre aux fournisseurs de traquer ce que vous avez entendu afin d’analyser votre réaction et définir ce en quoi vous êtes potentiellement intéressé.

Cette idée existe depuis au moins cinq ans, mais n’est pas quelque chose qui a été beaucoup mentionné dans le monde SEO.

Meilleure recommandation

« Il existe beaucoup d’informations erronées sur le web à propos des sujets tels que RankBrain, neural matching ainsi que le machine learning. Une partie de cela comprend également des faits documentés intégrés à de fausses informations. Il faut donc être vigilant en ce qui concerne vos sources. »

SEO in Orbit est parti dans l’espace

Si vous avez manqué notre voyage dans l’espace, découvrez quelles astuces nous avons envoyées le 27 juin dernier.

Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.
Sujets en lien :