Qu’est-ce que le Machine Learning ?

Les citations suivantes résument très bien le Machine Learning.
Plus fluide

Le Machine Learning est quelque chose de nouveau sous le soleil : une technologie qui se construit elle-même.”
Pedro Domingos

Plus intuitif

“Le Machine Learning est autant un art qu’une science. C’est comme la cuisine – oui il y a de la chimie, mais pour faire quelque chose de vraiment intéressant, vous devez apprendre comment combiner les ingrédients à votre disposition”. Greg Corrado, (Google)

Plus flexible

“Le machine learning n’est pas un bout de code statique : vous lui fournissez des données en permanence. Nous mettons constamment à jour les modèles et l’apprentissage, ajoutons plus de données et ajustons la manière dont nous allons faire des prédictions. C’est comme si c’était une chose vivante. Il s’agit d’une différente sorte d’ingénierie.” Christine Robson (Google)

Cool !
Toutes ces citations de sources anglophones proviennent de ce super article.

Le machine learning c’est comme cuisiner

Cuisiner : des ingrédients, des équipements de cuisine et un flair pour la cuisine.
Machine learning : des données, des mathématiques et une intuition d’ingénieur.

Machine learning vs Code traditionnel

Alors que le développement du code traditionnel est plus semblable à une science statique, le machine learning est un “être” fluide. À chaque fois que nous posons une question (input) pour obtenir une réponse (output), le chemin pour retourner la réponse est unique, écrit à la volée par une machine qui a été guidée par des ingénieurs plutôt que codée en “dur”. Et à chaque fois qu’elle remplit une tâche, elle apprend et peut appliquer ce savoir pour accomplir cette tâche encore plus efficacement la prochaine fois.
Époustouflant.

Les types basiques de machine learning

Le machine learning supervisé : fournir des données labellisées et fiables à une machine et lui indiquer les résultats attendus. Ensuite, on lui demande de trouver la formule optimale pour obtenir le résultat désiré à partir de ces données. Une fois que la formule a été définie, nous pouvons lui fournir des données non labellisées du même type et obtenir des prédictions fiables. AlphaGo est un excellent exemple : pour apprendre à jouer à Go, Google l’a alimenté avec plus de 10 millions de jeux humains. En analysant ces jeux la machine a identifié une stratégie et a pu battre le champion du monde.
Le machine learning non-supervisé : donner à la machine une gamme d’outils basiques, une source de données et un résultat désiré et laisser la machine labelliser les données et trouver la meilleure formule. AlphaGo Zero est un très bon exemple de cela – Google ne lui a fourni que les règles et le but du jeu Go, puis la machine a joué contre elle-même des millions de fois. Il lui a fallu seulement 2 jours pour apprendre à jouer suffisamment bien pour battre son prédécesseur AlphaGo 100 fois d’affilée.
Donc, dans un jeu avec des règles précises, Google a la capacité d’utiliser de l’apprentissage non supervisé et de surpasser 4 000 années d’efforts humains en seulement quelques jours.
Et cela n’est qu’une petite “mise en bouche” des progrès théoriquement possibles dans les années à venir.
Attention : Bien que le non-supervisé soit l’Eldorado du machine learning, Google ne risque pas de l’appliquer à grande échelle dans la sphère du SEO / AEO : il serait très dangereux de laisser son business model à la merci d’une machine. Google se doit de maintenir un certain niveau de supervision.
Donc, en SEO et AEO (Answer Engine Optimisation / Optimisation pour les Moteurs à Réponse), nous sommes intéressés par quelque chose situé entre ces deux types de machine learning – le Machine Learning semi-supervisé.
Dans ce cas, Google construit une fondation d’apprentissage supervisée sur des données labellisées et fiables, puis étend l’auto-apprentissage en utilisant des données non-labellisées de manière semi-contrôlée.

Pourquoi cela devient-il aussi important ?

Même si le terme “Machine Learning” date des années 1950, le machine learning n’est possible que depuis quelques années car, pour fonctionner, il requiert une gamme d’outils et de technologies qui ne sont tous disponibles que depuis une dizaine d’années.


Ce sont des technologies tels que les CPUs multithread dédiés, le Big Data, le Big Query (SQL basé sur des vecteurs) qui nous ont permis d’entrer dans l’ère de Machine Learning. Le monde vient de changer de manière radicale !
Google est très clair à ce sujet : c’est aujourd’hui une entreprise “AI-first” (ancré dans l’Intelligence Artificielle). Consultez ce site pour en savoir plus.
Note : bien que ce ne soit pas strictement vrai, IA et machine learning peuvent être considérés comme des synonymes pour le reste de cet article.

Le Machine Learning change les règles du jeu

Amit Singhal, Head of Search chez Google depuis le début des années 2000, vient du monde des “Retrievers”. Les “Retrievers” sont des ingénieurs qui écrivent du code statique pour collecter, trier et classer des informations selon des règles. Ces règles sont donc définies par les humains. Étant donné le succès de Google sous sa direction, il est clair qu’Amit Singhal et son équipe de retrievers sont très, très forts. David Pablo Cohn, un ingénieur leader en machine learning chez Google depuis 2002 a déclaré :

“ Il s’est avéré que l’intuition d’Amit était la meilleure du monde et nous avons fait mieux en essayant de coder en dur tout ce qui passait par le cerveau d’Amit. Nous n’avons rien trouvé d’aussi bon que son approche”.

Mais en 2014, l’équipe machine learning de Google a réussi à fournir des résultats de qualité équivalente à ceux des “retriever”. Mieux, ils avaient de meilleurs résultats quand ils s’agissait d’identifier une seule et unique réponse (la bonne). Les Machine Learners ont pris le dessus, et Google s’est fixé une approche 100 % IA. Grâce à ses avances en Machine Learning, Google devient aujourd’hui un moteur à réponse, qui a pour but de fournir à ses utilisateurs LA réponse / solution unique (et objectivement la meilleure) à leur problème / question.

RankBrain : Machine Learning entre dans le coeur de l’algorithme en 2015

Lorsqu’il a été lancé en 2015, RankBrain était la première utilisation de Machine Learning dans son algorithme annoncé par Google. Au lancement, RankBrain visait à améliorer les 15 % de requêtes que Google n’avait jamais vu auparavant. 9 mois plus tard, Google a annoncé que RankBrain affectait 100 % des recherches et était devenu le 3ème facteur de classement le plus important.
Cela montre clairement que, déjà en 2016, le Machine Learning était fiable et performant. Google ne fournit que très peu d’informations concrètes, mais au cours des deux dernières années, d’autres implémentations de Machine Learning ont certainement eu lieu. D’après mon opinion, nous avons également eu des mises en application Machine Learning de taille dans l’algorithme début 2018.

3 mises à jour majeures de l’algorithme en 2018

Début 2018, la plupart des outils de tracking (SEMrush, Mozcast, RankRanger) ont enregistré 3 secousses prolongées dans la volatilité des SERPs (j’exclu de mon analyse la mise à jour de l’index Mobile First du 22 mars puisqu’il s’agit d’un cas à part).

  • Secousse d’une semaine en Janvier 2018
  • Secousse d’une semaine en Mars 2018
  • Secousse d’une semaine en Avril 2018

Pour les analyses, j’ai utilisé les chiffres de SEMrush Sensor d’avril 2017 à avril 2018. Un Sensor Score de plus de 7 sur leur échelle est considéré comme une mise à jour, et je calcule le score moyen sur une semaine pour donner un “score de secousse”. Il n’y a pas énormément de données mais les résultats sont plutôt évoquants.

Données fournies par semrush.com

Les mises à jour en 2018 sont largement plus fortes qu’en 2017

  • 2017 = 10 mises à jour, avec une secousse moyenne sur une semaine de 5.7
  • 2018 = 3 mises à jour, avec une secousse moyenne sur une semaine de 7.3

La secousse moyenne est 30 % plus élevée en 2018 qu’en 2017. La moyenne des 3 mises à jour en 2018 est au dessus des 7, tandis qu’aucune des 10 mises à jour en 2017 n’a dépassé les 6.5.
3 mises à jours significatives de l’algorithme principal en 4 mois avec des périodes de volatilité inhabituellement longues. Google ne nous dit qu’une chose – ces mises à jour n’avaient pas pour objectif de pénaliser les sites de faible qualité… Dans ce contexte, ce commentaire prend un tout nouveau sens pour moi :

“Il y a toujours eu cette bataille entre les retrievers et les équipes Machine Learning. Les machine learners ont finalement remporté la bataille”. Pedro Domingos

Assistons-nous à une plus grande introduction de Machine Learning dans l’algorithme en 2018 ?

Google a précédemment annoncé que l’apprentissage en lui-même était fait offline.

Danny Sullivan (qui travaille désormais pour Google) : “Tout l’apprentissage que fait RankBrain est fait offline… On lui fournit des données de recherches historiques et il apprend à faire des prédictions à partir de ça. Ces prédictions sont testées et si elles sont bonnes, alors la dernière version de RankBrain est mise en ligne. Puis, le cycle d’apprentissage offline => test est répété.”

Considérant cette manière de fonctionner, les MAJ des 12 janvier, 2 mars et 17 avril sont peut-être des mises à jour “normales” de Machine Learning. Google pousse un élément de Machine Learning dans l’algorithme principal, créant un choc initial majeur qui est immédiatement suivi d’une période d’instabilité significative pendant que le nouvel apprentissage s’adapte aux données du monde réel.

Moteur à Réponse “à la Star Trek”

“La destinée du moteur de recherche Google est de devenir cet ordinateur de Star Trek, et c’est ce que nous sommes en train de construire”. Amit Singhal

Qu’est-ce qui rend l’ordinateur de Star Trek aussi intéressant pour Google ? Il fournit des réponses, soit après un échange conversationnel avec l’utilisateur, ou (même plus excitant pour Google) en anticipant les besoins de l’utilisateur et fournissant la solution sans même avoir été sollicité.
Google s’est donné pour mission de développer un Assistant Virtuel qui dialogue avec les utilisateurs, observe leur comportement, apprend de manière autonome, s’améliore au fil du temps et fourni des réponses uniques (objectivement correctes)… le tout étayé par du Machine Learning.

Google est destiné à devenir un moteur de réponse “à la Star Trek”.

Le Machine Learning – les deux parties de l’équation AEO

Note : ils est évident que la délimitation les deux parties de l’équation n’est pas aussi claire que suggérée ci-dessus. Mais cette distinction permet de fournir une approche relativement simple qui permet d’aborder le court terme, sans perdre de vue le long terme.

  • Front end : comprendre l’intention de l’utilisateur

Ici, l’implémentation du Machine Learning est déjà bien avancé via RankBrain – modèles de requête, vecteurs de mots, codage universel de phrases etc. Il s’agit de la partie de l’algorithme destinée à mieux comprendre le besoin de l’utilisateur, et donc de permettre au moteur de recherche de mieux prioriser les résultats selon ses intentions.
Pour toutes les recherches effectuées sur Google, RankBrain prend la requête, y ajoute les informations dont il dispose sur l’utilisateur (l’historique de recherche, les attributs de la personne, l’historique d’achat etc.), le contexte spécifique (l’heure, la localisation, l’appareil etc.) et sa compréhension des entités pour identifier la véritable intention derrière les mots utilisés dans la requête.

Objectif : comprendre l’intention de la question / le fond du problème exprimé afin de communiquer au back end un besoin / question très spécifique et explicite.

  • Back end : comprendre les solutions disponibles

Google rassemble des informations sur le monde à travers plusieurs canaux : le Knowledge Graph, MyBusiness, Local Guides, Adwords… avec l’objectif de fournir au front end la réponse / solution la plus pertinente et crédible. Le but du back-end est de collecter et comprendre de manière fiable les options disponibles, puis d’évaluer leur crédibilité et pertinence pour identifier la meilleure réponse.
Il s’agit d’un vaste territoire où le Machine Learning dispose d’un grand nombre d’applications possibles et s’installe sur le devant de la scène. Bien qu’ils restent très évasifs dans leurs notices officielles, les brevets de Google indiquent que le Machine Learning est déjà appliqué dans cette sphère, et est destiné à devenir la force dominante. Les articles de Bill Slawski sont une très bonne source d’informations et d’inspiration sur ces brevets. Vous pouvez commencer à les lire ici.

Objectif : fournir LA bonne réponse au problème exprimé

Nous devons changer notre approche

Le Machine Learning est un “game changer” : nous vivons actuellement une véritable révolution en SEO.
Au lieu de se demander “Comment être parmi les possibilités offertes par Google à ses utilisateurs” (les 10 liens blues), nous devons maintenant nous demander “Comment être la réponse unique fournie par Google à un utilisateur pour le problème qu’il a exprimé”.
Ce changement de perspective est nécessaire dès aujourd’hui. Les nouvelles opportunités pour être cette réponse unique sont déjà en place et sont à prendre – AnswerBoxes, Knowledge Panels, Autres Questions Posées, MyBusiness etc (autrement dit, des Position0). La montée de la recherche vocale va augmenter considérablement l’importance de la Position0, pour le rendre indispensable dans une stratégie digitale.
Se tenir informer et mettre en œuvre des tactiques efficaces pour gagner la Position0 est déjà une tâche extrêmement difficile, mais cette tâche deviendra plus difficile encore dès lors que le machine learning fera de ces Position0 des résultats ultra-personnalisés, au cas par cas et en temps réel.
Implémenter les tactiques pertinentes est, bien sûr, nécessaire. Mais dans le contexte de “Révolution Machine Learning”, prétendre être LA réponse unique offerte par Google, Microsoft ou Amazon demande une approche holistique, centrée sur la marque.
Le Machine Learning nous mène dans la nouvelle ère des moteurs à réponse. La stratégie gagnante en AEO (optimisation pour les Moteurs à Réponse) sera obligatoirement centrée sur la Compréhension et la Crédibilité.

Plus sur le AEO par Jason Barnard
Le futur du SEO / AEO : compréhension et crédibilité
Graphe de connaissance Google – Qu’est-ce que c’est ? Comment en profiter ?