Qu’est ce que la Page Importance de Google et comment en tirer profit en SEO ?

La Page Importance est un algorithme qui détermine le score utilisé par Google pour classer les urls à interroger lors des sessions de crawl, les plus importantes d’abord. La page importance permet de dépiler les urls prévues à explorer pour optimiser le budget de crawl affecté à chaque site.

Afin de mieux répartir ses dépenses lors des crawls, Google doit prioriser les pages qu’il doit “fetcher”. Dans cette recherche d’optimisation des coûts, la firme de Mountain View a publié de nombreux brevets autour de la planification des crawls. Ces brevets nous permettent aujourd’hui de mieux comprendre comment sont catégorisées vos pages et de donner du sens au budget de crawl que les SEO observent différemment en fonction des sites, des typologies de pages et des métriques on/off-site de celles-ci.

crawl behavior by group

Graphique montrant la fréquence de crawl de Google par section d’un site, toutes les sections n’ont pas la même importance pour Google

Pourquoi Google ne peut-il pas crawler toutes les pages du web ?

D’après InternetLiveStats, il existe aujourd’hui plus de 1,2 milliards de sites internet, chacun pouvant posséder de quelques dizaines à des millions de pages à indexer. Si l’on ajoute à cela les ressources, images – css – js, que Google cherche à analyser et comprendre, cela représente une somme astronomique de données à interroger. Il est clair que, même avec des centaines de data centers et la puissance de stockage et de calcul que cela représente, Google doit faire des choix dans son exploration. Ces choix reposent évidemment sur des algorithmes et un ensemble de métriques qu’il est important de connaître et de maîtriser pour tirer son épingle du jeu en référencement naturel.

On estime que Google devrait analyser près de 4 millions de pages à la seconde pour couvrir l’intégralité de son index en 1 an (estimé à 130 mille milliards de pages) et ceci pour une mise à jour unique par an et par page.

C’est tout simplement impossible et une mise à jour par an et par page est contre productif pour Google !

Parcourir toutes les pages afin de maintenir au maximum la fraîcheur et l’exhaustivité de son index afin de garantir la meilleure réponse possible implique de revenir sur les mêmes pages plusieurs fois par jour. Cela coûte forcément très cher en temps de processing et donc en énergie et toutes les entreprises savent qu’optimiser les coûts de fonctionnement est important pour garantir la rentabilité. Il faut planifier et prioriser les crawls en fonction de l’importance des pages.

Les types de crawls de Google et fonctionnement des crawlers

Nous savons que Google n’explore pas toutes les typologies de pages de la même manière. Par exemple : les pages d’accueil, les flux rss et les pages de rubrique sont des réservoirs à fraicheur, Google les consulte de manière frénétique. Les page produit et les articles, au contraire, sont des sources de connaissance, Google en évaluera la qualité et les consultera avec une fréquence qui dépend d’un score calculé grâce à un ensemble de données : c’est le score de page importance.

Google connait la profondeur des pages, leur fréquence de mise à jour, la popularité interne, le volume de contenu et la qualité sémantique HTML de ces pages, il va donc adapter sa répartition de budget de crawl sur ces pages permettant la découverte de nouveaux documents ou la mise à jour de son index.

page crawled by depth

Taux de crawl par profondeur

Un site média par exemple, est classé par Google comme tel, il va donc augmenter la fréquence de visites sur certaines pages plutôt que d’autres. Les contenus chauds sont normalement remontés sur les pages de profondeur 1 (Home Page) et 2 (entête de rubrique). Le plus gros des ressources du budget de crawl vont donc être dépensées sur ces pages, puis sur les nouvelles urls découvertes.

Ensuite, en fonction de la richesse du contenu, de la sémantique HTML, du nombre de liens, de la vitesse de chargement (dépendante du poids des ressources et des capacités du serveur) ainsi que d’autres facteurs comme le PageRank et le InRank (Métrique Oncrawl), les robots seront envoyés sur certaines pages plutôt que d’autres.

Petit rappel de ce que dit Google sur son crawl et son indexation.

Comment fonctionne réellement le crawl de Google ? #RTFM

Le crawl de Google est un ensemble d’étapes simples qu’il opère de manière récursive pour chaque site. Son objectif est de remplir son index de façon exhaustive et le plus précisément possible. Chaque crawl est avant tout un dépilage d’une liste d’urls à aller fetcher pour vérifier leur mise à jour. Cette liste d’url est conçue à l’avance et doit être optimisée pour ne pas fetcher des documents de moindre importance.

D’après les schémas ci dessous, issus de la documentation officielle de la Google Search Appliance Documentation (source), Google ne peut répondre correctement et rapidement à une requête que s’il construit un index de recherche de vos pages à l’aide d’un crawl. On peut supposer que cette méthode est aussi employée pour l’indexation du web.

« Before anyone can use the Google Search Appliance to search your enterprise content, the search appliance must build the search index, which enables search queries to be quickly matched to results. To build the search index, the search appliance must browse, or “crawl” your enterprise content, as illustrated in the following example.

  1. Identifies all the hyperlinks on the page. These hyperlinks are known as “newly-discovered URLs.
  2. Adds the hyperlinks to a list of URLs to visit. The list is known as the “crawl queue »
  3. Visits the next URL in the crawl queue. »

L'algorithme de Crawl de Google

gauche : représentation simplifiée de l’algorithme de crawl de Google
droite :algorithme complet

Comment choisir les pages importantes qui seront lues lors de cette session de crawl ?

A la lecture des brevets de Google, on remarque que de nombreuses publications liées aux crawlers prennent en compte des éléments de “scheduling” (planification) des crawls. La planification des ressources machine de Google est donc basée sur des algorithmes de traitement des données que nous allons décortiquer pour vous dans cet article.

Nos recherches se portent notamment sur trois termes importants issus de l’analyse de ces brevets : le “Crawl Budget”, le “Crawl Scheduling” et la “Page Importance”.

Le premier terme, traduit littéralement en “budget de crawl”, n’est pas “officiel” pour Google – qui a tout de même dû expliquer le concept récemment dans un post sur son blog officiel. Les termes suivants que l’on traduira simplement par “planification du crawl” et “score d’importance de page” sont cités dans ses brevet (source et source), permettent à Google d’être plus efficace dans son exploration du web.

score importance google

Document issu du brevet de la page importance où l’on voit le concept de score d’importance et de planification de crawl réunis

Google fait donc des choix pour planifier son exploration, c’est là que l’algorithme de la Page Importance entre en jeu. Il permet de sélectionner les urls les plus pertinentes et de planifier les sessions de crawls sur chaque site, il réduit de fait le nombre de pages non pertinentes à explorer, garantissant une meilleure optimisation des dépenses en énergie de Google tout en conservant au maximum de qualité et de fraîcheur à l’index.

Google utilise (comme OnCrawl) une méthode découverte/crawl/indexation assez simple. Il tente de parcourir le site dans son intégralité – en fonction de la capacité du serveur à répondre au “host Load” – pour détecter les pages les plus importantes. Tout ceci est basé sur un ensemble d’algorithmes qui compilent les données on-site. Le contenu est indexé et la revisite de Google se fait sur les pages les plus essentielles pour l’utilisateur ou correspondant le mieux aux requêtes à fort intérêt, les dernières pages publiées, les plus fraîches et contenant les contenus les plus riches et de meilleure qualité.

Les nouvelles urls découvertes seront interrogées, mais comme leur contenu est plus froid, une fois traitées ces pages recevront de la visite de façon plus sporadique.

Comment Google peut-il estimer l’importance d’une ressource à fetcher ?

Au travers de son exploration Google va compiler et utiliser les métriques important pour évaluer l’importance d’une page ou d’un groupe de page par rapport à un autre.

Voici la liste des facteurs qu’il va prendre en compte :

  • La position de la page dans l’arborescence ;
  • Le Page Rank ;
  • Le type de page ou type de fichier ;
  • L’inclusion de l’url dans le sitemap.xml ;
  • Le InRank (page rank interne) ;
  • Le nombre et la variation des liens internes ;
  • La pertinence, la qualité et la taille du contenu ;
  • La fréquence de mise à jour ;
  • La qualité des codes sources et du site en général.

En tant que SEO vous connaissez déjà toutes ces optimisations, elles prennent donc tout leur sens avec la notion de page importance.

Page importance et budget de crawl, quel rapport ?

La page importance est le score utilisé par Google pour classer les urls à interroger, les plus importantes d’abord. La page importance permet de dépiler les urls « scheduled » (prévue) lors des crawls en fonction du budget de crawl affecté à chaque site.

Le budget de crawl, tel qu’il est montré dans la Google Search Console est une vue macro du crawl, il est à noter que cette courbe d’exploration des pages (il vaut mieux dire des urls, car ce n’est pas le volume de pages mais bien d’urls qui sont reportés dans la courbe bleue de « Statistique d’exploration ») prend en compte les hits sur les ressources CSS, JS … ainsi que les pages en erreur 40x ou les redirections 3xx et ce pour tous les crawlers (web mais aussi adwords, adsence, images, news ou vidéo). Cette information est donc trop générique pour être intelligible, seule l’analyse des logs permet de connaître la réalité du crawl de Google. Les données de fréquence de crawl permettront d’évaluer si vos scores de « Page Importance » sont alignés avec vos pages ROIstes.

Le budget de Crawl, est donc le résultat du “host load” et du “crawl/url scheduling” c’est à dire, la limite de hits que Google va attribuer par jour pour explorer les pages qui serviront au mieux son exploration. C’est donc la page importance qui permet de l’optimiser.

Comment maximiser votre page importance ?

Optimiser le temps de chargement

Le premier levier est le “host load”. Baisser ses temps de réponse, utiliser des CDNs et des serveurs de cache et des 304s sur les ressources permettent de réduire considérablement les temps de chargements et de maximiser votre “host load”.

fréquence de crawl par temps de chargement

Plus une page charge rapidement, plus sa fréquence de crawl augmente

status code by bots

S’assurer que les robots d’indexation ne rencontrent pas de freins dans leur exploration du site en suivant les status codes renvoyés

 

Optimiser le maillage interne

Les pages les plus essentielles à votre business doivent recevoir des liens depuis les pages les plus importantes comme, la page d’accueil, par exemple. Toutes les pages qui reçoivent un lien depuis cette page d’accueil (les pages en profondeur 2) sont vos pages importantes. Faites des liens qui restent dans le temps vers vos pages à fort potentiel.

Favoriser différents types de documents

L’utilisation de PDFs contenant des liens vers vos pages importantes peut aussi être un axe d’amélioration, mais cela implique une gestion fine du contenu dupliqué pour ne pas copier le contenu de votre site. Nous avons remarqué que les pages contenant des tableaux HTML pour lister des données sont elles aussi plus souvent crawlées que les autres. C’est un axe d’amélioration pour les e-commerçants qui peuvent jouer sur la qualité de la sémantique HTML pour favoriser le crawl des pages produits.

Maintenir des sitemap.xml à jour

Tenir à jour les fichiers sitemap.xml est une tâche qui est souvent négligée et pourtant pouvoir pousser des pages dans ces documents peut vous permettre de maximiser l’importance de ces pages.

page in sitemaps

Connaitre les pages présentent dans le sitemap.xml versus celles qui n’y sont pas mais pourtant présentent dans l’architecture

Réduire les liens qui ne sont pas pertinents

Réussir à créer des pages qui ne contiennent pas trop de liens est l’axe que nous trouvons le plus important. Out les mega-menus et les liens de footer lorsque l’on dépasse la home page. Ces blocs de liens fortement dupliqués réduisent la puissance que chaque lien transmet, ils sont souvent peu optimisés et contribuent à faire chuter les InRank de pages du silo. Pour maximiser la puissance de chaque lien, les pages ne doivent avoir qu’un nombre réduit de liens sortants.

internal page inrank silo distribution

Connaître la contribution du linking d’un groupe de pages vers un autre permet d’optimiser le maillage interne

Optimiser les contenus et leur volume

Créer des pages riches en contenus et en données sémantiques est une optimisation de premier ordre, plus un article est long ou plus une fiche produit est riche, plus Google lui affecte un score d’importance élevé. Cela vaut aussi pour les catégories qui ne doivent pas être simplement des pages pleines de liens mais qui doivent contenir un volume de texte important (remontés des articles ou produits qu’elles exposent).
Plus une page contient de texte, plus elle apporte de l’information à l’utilisateur et plus Google viendra la requêter.
fréquence de crawl par volume de texte

Conclusions

Lorsque l’on doit optimiser la visibilité d’un site internet, il est essentiel de comprendre les algorithmes du moteur ciblé, nous savons que l’analyse croisée des logs et du crawl permet aux utilisateurs d’OnCrawl de confronter les métriques cités précédemment avec la réalité du comportement de Google sur le site.

L’analyse des logs tout d’abord, permet de suivre à la trace les fréquences de visites des robots de Google sur des ensembles de pages, et déterminer les freins auquel Google va être confronté dans son exploration du site. Vous pourrez suivre les codes retours renvoyés ainsi que le poids des pages en quasi live.

Le crawler vous donnera les ensembles de pages et les métriques à suivre pour la page importance : depth (profondeur), présence des urls dans les sitemaps.xml, l’InRank, le nombre et la qualité des liens vers chaque page ou ensemble de page, la qualité HTML et sémantique de chaque page.

Enfin l’analyse croisée vous aidera à suivre les fréquences de crawl par métrique de “page importance” de manière simple et lisible. L’accès à la donnée est donc optimisé pour vous faire gagner en temps d’analyse.


Ne perdez plus de temps, suivez votre page importance grâce à OnCrawl.

ACTIVER MES 30 JOURS D’ESSAI

Erlé

About Erlé

Erlé, anciennement responsable SEO des boutiques en ligne Orange et Sosh, est aujourd’hui Customer Success Manager @OnCrawl. Au cours des 10 dernières années, il a pu s’initier aux meilleures pratiques Front/Back office, se spécialiser au schema.org et ce, aux côtés de nombreux experts reconnus.

Entries by Erlé