SEO in orbit : découvrez les secrets de l'indexation

Accueil > Webinaire > Découvrez les secrets de l'indexation

Le webinaire « Déverrouiller les secrets de l’indexation » fait partie de la série « SEO in Orbit » et a été diffusée le 12 juin 2019. Dans cet épisode, Kevin Indig partage son point de vue sur la manière dont les pages indexées influencent sur le référencement d’un site et quelles pages ne doivent pas être indexées. Quelle est la bonne approche vis-à-vis de cette étape intermédiaire entre la découverte des pages et leur apparition sur les SERP?

SEO in Orbit est la première série à envoyer le SEO dans l’espace. Tout au long de la série, nous avons débattu sur le présent et le futur du SEO technique avec certains des experts les plus qualifiés et avons envoyé leurs meilleurs conseils dans l’espace le 27 juin 2019.
Pour les retardataires, c’est ici :

Qui est Kevin Indig ?

Kevin Indig a aidé de nombreuses startups dans l’acquisition de +100M d’utilisateurs ces 10 dernières années. Il est VP SEO & CONTENT pour G2, consultant spécialisé en Growth pour GermanAccelerator, et a précédemment géré le SEO d’Atlassian et Dailymotion. Il est spécialisé dans l’acquisition des utilisateurs, la construction des marques, et la rétention d’utilisateurs. Kevin a précédemment travaillé avec des entreprises comme eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS, et beaucoup d’autres. Il dirige également la newsletter Tech Bound.

Cet épisode a été animé par Rebecca Berbel, Content Manager chez Oncrawl. Elle est passionnée de NLP, de modèles informatiques de langages, des systèmes et de leur fonctionnement général. Rebecca n’est jamais à cours de curiosité lorsqu’il s’agit de sujets SEO technique. Elle croit en l’évangélisation de la technologie et l’utilisation des données pour comprendre la performance des sites web sur les moteurs de recherche.

Définitions

L’une des raisons pour lesquelles il est important de parler d’indexation est qu’il s’agit d’un sujet complexe. De nombreux référenceurs ont du mal à indexer et par la suite à influencer cette même indexation.

[Ebook] Crawlability

Assurez-vous que vos sites web répondent aux exigences des moteurs de recherche en termes de crawlabilité pour booster la performance SEO.

Lire l'ebook

« It’s time for another SEO quiz.
You create a new page. Which of the following will keep it out of Google’s index?
A. Meta robots noindex
B. Robots.txt block
C. Giving the page meta noindex *and* blocking it in robots.txt »
— Will Critchlow (@willcritchlow) June 9, 2019

– Le crawl

Le crawl, de façon simple, c’est l’activité qui consiste pour un moteur de recherche à explorer les pages et contenus proposés par un site web.
Cela aide Google à trouver toutes les URL possibles, les traiter puis les indexer et éventuellement les classer.

– Le processus en trois étapes de Google

Le crawl fait partie du processus en trois étapes de Google qui permet de créer des résultats de recherche :

Exploration
Rendu
Indexation

Ce sont des processus techniquement différents, gérés par différents programmes ou parties du moteur de recherche.
Le classement est potentiellement une quatrième étape de ce processus.

– Indexation

L’indexation est le processus par lequel Google ajoute des URL à sa longue « liste » de résultats possibles. Si Kevin doit éviter le mot « index » dans une définition de l’indexation, il préfère parler d’une « liste » métaphorique : Google dispose d’une « liste » d’URL qu’il peut utiliser pour classer et afficher les meilleurs résultats pour les utilisateurs.

– Fichiers de log

Les serveurs Web conservent un historique chaque fois que quelqu’un demande une page ou une ressource sur internet.
Kevin a une appétence pour les fichiers de log en tant que source de vérité lorsqu’il s’agit de comprendre comment Google explore et affiche votre site.
Dans les logs, on peut trouver des informations sur le serveur indiquant la fréquence à laquelle Google visite votre site et ce qu’il y fait. Les fichiers de log contiennent des enregistrements individuels de chaque visite sur le site.

Vous pouvez obtenir de nombreuses informations à partir des fichiers logs :

Status codes spécifiques
Problèmes avec le crawl
Problèmes de rendu
Combien de temps le Googlebot consacre-t-il à votre site
Quels Googlebots viennent sur votre site. Par exemple, avec l’index Mobile-First, le principal moteur Googlebot utilisé pour l’indexation a récemment été mis à jour.
Comprendre si la structure technique de votre site est suivie par Google et si un élément peut être optimisé.

Vérifier l’indexation

– Non recommandé : requêtes « site: »

Lorsque Kevin a débuté dans le SEO il y a environ 10 ans, il était capable de voir quelles pages de son site étaient indexées en exécutant la recherche « site: » sur Google. Bien qu’il l’utilise encore parfois, ce n’est plus un moyen fiable de savoir si une URL est indexée.
Plus récemment, il a interrogé John Mueller sur cette stratégie et il a eu la confirmation qu’il ne s’agissait plus d’une astuce efficace pour vérifier ce que Google a indexé ou pas.

– Recommandé : L’outil d’inspection d’URL de la Search Console

John Mueller recommande à la place d’utiliser l’outil d’inspection d’URL de la Search Console pour vérifier ce qui a été indexé.

« The cached page is not always representative of what’s indexed, and it’s generally only the static HTML that was fetched (if there’s JavaScript on it, it usually doesn’t run within the cached hosting). I’d focus more on the URL inspection tool. »
— ???? John ???? (@JohnMu) May 8, 2019

– Recommandé : les sitemaps XML et le rapport de couverture

Soumettre un sitemap XML dans la Search Console est une façon de vérifier un lot d’URL , puis de vérifier le sitemap dans le rapport de couverture de la Search Console.

Importance de la distinction entre crawl, rendu et indexation

Comme mentionné, il existe un processus en 3 étapes dans lequel Google explore, traite et indexe une page. Il est très important de faire la distinction entre chacune de ces étapes. À mesure que le Web devient plus sophistiqué, Google a dû s’adapter, séparer et améliorer ces processus individuellement.

Différents Googlebots

Google utilise plusieurs Googlebots pour explorer et rendre des sites Web. Il y a plusieurs types de ressources : images, vidéos, actualités, texte… Google utilise différents robots pour comprendre chaque type de contenu.

Oncrawl SEO Crawler

The most powerful, customizable crawler for monitoring, audits, and JavaScript crawling. Increase traffic and revenue through improved technical SEO.

Learn more

Il y a environ un mois, Google a annoncé avoir amélioré son moteur de rendu afin que le Googlebot passe en mode « evergreen » et sous la dernière version Chrome.
C’est important, car l’analyse et le rendu sont des étapes nécessaires qui mènent à l’indexation.

Modification des priorités dans le processus de Google

À des fins d’indexation, Google avait l’habitude de crawler avec le Googlebot desktop. Dorénavant, ils utilisent le Googlebot mobile à des fins d’indexation.
L’indexation Mobile-First sera imposée à partir de juillet 2019 pour tous les nouveaux sites. Elle sera effective également pour tous les sites existants connus s’ils n’ont pas déjà été permutés.

Crawler : comment Google découvre les URL à indexer

Pour pouvoir indexer une page, Google doit la crawler.

En tant que première étape du processus menant à l’indexation et pour être certain que vos pages sont indexées correctement et rapidement, vous devez vous assurer que l’étape de crawl se déroule sans accroc.

Il existe essentiellement trois façons pour Google de trouver des URL :

Les liens : c’est sur quoi repose tout le fonctionnement du PageRank – trouver de nouveaux sites au moyen d’hyperliens.
Sitemap XML
Crawls précédents

– Comment Google hiérarchise les URL (budget de crawl)

Google détermine lui-même le nombre de sites à crawler et à quelle fréquence. Ceci est souvent appelé « budget de crawl ».

Un article publié sur le blog Google Webmaster à propos du « budget de crawl » donne quelques idées sur la manière dont Google définit les sites à analyser.

– Popularité : backlinks et PageRank

L’un des points établis dans cet article est que le PageRank est l’un des principaux vecteurs de la vitesse et du volume d’indexation d’un site Web.

Les backlinks, sont une composante majeure de PageRank et ont donc une influence sur le crawl et l’indexation.

– Status codes

Les status codes sont également pris en compte. Par exemple, si vous avez beaucoup de pages 404 sur votre site, cela conduira probablement Google à réduire la fréquence des crawls.

– La propreté du site

Si votre site est organisé de façon qu’il gaspille beaucoup de budget de crawl, Google peut réduire le temps qu’il passe sur votre site.

– Vitesse de la page et temps de réponse du serveur

Le budget de crawl est également impacté par la vitesse de la page et le temps de réponse du serveur. Google ne veut pas faire tomber votre site ; si il voit que votre serveur a des difficultés à afficher les pages et les ressources à la vitesse souhaitée, il s’adaptera à votre serveur..

Rendu : Mise à jour Caffeine de Google

La mise à jour « Caffeine » publiée il y a quelques années était essentiellement une mise à jour liée à la structure de rendu de Google.

Indexation : différents clusters pour les types de contenu

Il existe différentes archives d’index que Google utilise pour renvoyer des résultats différents. Il est légitime d’imaginer qu’il existe différents groupes dans l’index pour les résultats d’actualités, un autre pour les résultats d’image, etc..

Classement : algorithmes séparés

Enfin, les URL indexées sont classées ; mais il s’agit d’un algorithme totalement différent.

Améliorer la vitesse d’indexation

Obtenir des pages indexées plus rapidement et obtenir plus de pages indexées est fortement influencé par le PageRank et donc par les backlinks. Mais les stratégies pour améliorer l’une et l’autre sont différentes.

Si vous voulez que les pages soient indexées plus rapidement, optimisez les deux premières étapes (crawling et rendu). Cela comprendra les éléments suivants :
Le maillage interne
Le sitemap
La vitesse du serveur
La vitesse de la page

Amélioration du nombre de pages indexées

Si vous souhaitez obtenir plus de pages indexées, c’est là que l’aspect crawl est le plus important. Vous voudrez faciliter la recherche de toutes vos pages par Google. C’est une chose aisée sur un petit site web avec un millier d’URL, mais beaucoup plus compliqué sur un site plus grand avec des millions d’URL.

Par exemple, G2 a de nombreuses pages de types différents. L’équipe SEO de Kevin veut s’assurer que Google est capable de trouver toutes les pages, quelle que soit la profondeur de crawl et le nombre de pages de ce type ; c’est un défi majeur qui doit être abordé sous différents angles.

Variation des taux de crawl en fonction du profil de la page

En fonction du type de page, Kevin trouve souvent différents taux de crawl réalisé par Google. Cela dépend souvent du profil de backlinks de l’URL et du maillage interne. Les fichiers de log sont à ce moment là le plus utile.

Il segmente son site par type de page afin de comprendre où celui-ci manque d’efficacité de crawl, ou à l’inverse, quand le site est justement trop efficace.

Relation entre le crawl, la vitesse d’indexation et le classement

Kevin a spécifiquement observé des corrélations précises entre le taux de crawl, la vitesse d’indexation et le classement pour chaque type de pages. Ceci s’est montré véridique non seulement sur les sites avec lesquels il a travaillé, mais également avec d’autres spécialistes du secteur.

Sans avancer qu’un lien de causalité existe entre le crawl, l’indexation et le classement, il apparaît que des éléments similaires pilotent l’indexation quand vient le moment de classer une page.
Par exemple, si vous avez beaucoup de backlinks vers un certain modèle de page pour un type de page donné (exemple : une landing page), vous trouverez alors dans vos fichiers de log si Google présente un taux de crawl plus élevé sur ces mêmes pages. Google indexe également ces pages plus rapidement et celles-ci sont généralement mieux classées que les autres.

Il est difficile de dire de façon universelle que ceci est valable pour tous les sites, mais Kevin encourage tout professionnel du SEO à consulter ses fichiers de log pour vérifier si cela est vrai sur leur propre site. Oncrawl a également constaté que c’était le cas sur de nombreux sites analysés.

Cela fait partie des éléments qu’il a essayé de mettre en avant avec le modèle de maillage interne TIPR qu’il a inventé.

Mesurer le taux de crawl

Pour mesurer le taux de crawl, vous souhaitez répondre à la question suivante : à quelle fréquence un Googlebot vient-il visiter une URL?

Comment appréhender cette autre question vous demandez-vous… Kevin va tout simplement vérifier le nombre de visites du Googlebot chaque semaine. Vous pouvez également les consulter quotidiennement ou mensuellement.

– Se concentrer sur l’avant/après

Plus important que la période, il faut regarder les changements dans le taux de crawl. Vous devez examiner la fréquence avant d’apporter des modifications et uniquement après leur intégration.

– Mettre l’accent sur les différents types de page

Une autre astuce pour mesurer le taux de crawl consiste à déterminer où se trouvent les lacunes sur votre site. Au niveau des types de pages, où sont les différences en matière de taux de crawl ? Quel type de page est plus crawlé ? Quel type de page est difficilement crawlé ?

– Observations courantes dans le comportement de crawl

URL la plus explorée : robots.txt
Le plus de temps passé sur une URL / un groupe d’URL : les sitemaps XML, surtout quand elles deviennent plus grandes.

Explorer les fichiers de log pour trouver des différences de comportement de crawl entre les types de page relève de la révélation. Recherchez les URL analysées quotidiennement et les URL analysées tous les mois. Cela peut vous en dire beaucoup sur l’efficacité de la structure de votre site pour le crawl (et l’indexation, même s’il existe une étape intermédiaire).

Répartition du budget de crawl en fonction du « business model »

Pour améliorer l’efficacité de crawl, la stratégie consiste généralement à réduire l’attention que Google accorde à certains types de pages et à le rediriger vers des pages plus importantes.

La façon dont vous allez gérer ça dépendra de la manière dont les conversions sont organisés sur le site. Kevin distingue deux modèles de site de base : les “business model” centralisés et décentralisés :

Les modèles décentralisés peuvent diriger les utilisateurs sur n’importe quelle page. Trello en est un bon exemple : vous pouvez vous inscrire sur n’importe quelle page. Tous leurs types de page sont relativement similaires. Parce qu’aucune page n’a plus de valeur qu’une autre pour les inscriptions, l’objectif est d’obtenir un taux de crawl uniforme sur l’ensemble du site.
Les modèles centralisés à la manière de Jira. Jira n’a pas un seul type de page que nous pouvons reproduire un million de fois : il n’y a que quelques landing pages où les visiteurs peuvent s’inscrire. Vous voulez vous assurer que votre budget de crawl sur un site comme celui-ci est concentré autour de vos points de conversion (vos landing pages).

La manière dont vous souhaitez répartir votre budget de crawl dépend de la monétisation de votre site et quels types de pages jouent un rôle prépondérant à ce niveau.

Gérer le gaspillage de crawl

Pour empêcher les Googlebots de dépenser son budget de crawl sur des pages moins importantes pour la conversion, il existe plusieurs méthodes :

Le meilleur moyen d’empêcher le crawl est d’utiliser un robots.txt:

Dans 99,99999% des cas, Google respecte les directives du fichier robots.txt.
Un robots.txt peut vous aider à bloquer le crawl d’une grande partie de votre site qui contient du contenu dit mince ou en double (Exemples : les profils d’utilisateur sur un forum, URL de paramètres etc..).

Il existe des cas légitimes où vous voudrez peut-être qu’une page ne soit pas indexée, mais que celle-ci aide toujours au crawl. Kevin considère que certaines pages centrales entrent dans cette catégorie. C’est là qu’il utilise une « meta noindex. »

John Mueller a déclaré que les balises « meta noindex » sont finalement traitées comme des requêtes nofollow, mais Kevin n’a jamais vu cela se produire. Il admet que c’est surement dû au fait que cela prend du temps à se produire (un an ou plus). Néanmoins, il a tendance à trouver les Googlebots «gourmands», à chercher constamment plus et à suivre autant de liens qu’ils le peuvent.

Le conseil de Kevin est d’utiliser le fichier robots.txt au maximum. Vous pouvez utiliser des caractères génériques et des techniques très sophistiquées pour empêcher certaines parties d’être crawlées.

La règle à suivre est que plus le contenu est mince, plus il est probable qu’il soit exclu du crawl.

Les pages exclues du crawl via le fichier robots.txt peuvent toujours être indexées par Google si des liens internes ou des backlinks vont vers elles. Si cela se produit, le texte de description dans les résultats de la recherche indique que Google n’a pas pu analyser la page en raison d’une restriction imposée dans le fichier robots.txt. En règle générale, ces pages ne se classent pas très bien sauf si elles ont été récemment exclues dans le fichier robots.txt.

Problèmes d’indexation dus à des pages similaires

– Erreurs canoniques

En règle générale,les déclarations canoniques sont très facilement erronées. Kevin a vu le cas à quelques reprises où la canonique a eu un point-virgule (;) au lieu de deux-points (:) ; ce qui entraîne de nombreux problèmes…

Les canoniques sont extrêmement sensibles dans certains cas et peuvent amener Google à s’en.

Un des problèmes les plus communs avec les canoniques, ce sont celles oubliées.

– Migrations de sites

Les migrations de sites sont souvent une source de problèmes avec les canoniques; Kevin a vu des problèmes où le site a tout simplement oublié d’ajouter le nouveau domaine aux canoniques.

C’est extrêmement facile à oublier, en particulier lorsque votre CMS a besoin d’un ajustement manuel pour effectuer le changement lors d’une migration.

Le paramètre par défaut est que la page canonique doit pointer sur elle-même, sauf s’il existe une raison spécifique de pointer vers une autre URL.

– HTTP vers HTTPS

Ceci est une autre erreur canonique commune qui empêche l’indexation de la bonne URL. Le mauvais protocole est parfois utilisé dans la canonique.

– Recherche de la source d’erreurs lorsque Google ignore la canonique
Google choisira parfois sa propre canonique. Quand ils se méfient de vos canoniques déclarées, il y a généralement une raison.

Kevin suggère d’éviter les situations dans lesquelles vous pourriez envoyer des informations contradictoires à Google :

Regardez dans vos sitemaps XML
Crawlez votre propre site et recherchez des erreurs canoniques
Examinez les paramètres de votre Search Console pour rechercher des paramètres en conflit.
N’utilisez pas le noindex et les canoniques en même temps

Types de pages contribuant à l’indexation

Il y a 10 ans, une technique SEO répandue consistait à envoyer autant de pages que possible à indexer : plus il y avait de pages indexées, mieux c’était.

Aujourd’hui, ce n’est plus le cas et la qualité prime.. Un contenu non standardisé dans l’index n’est pas souhaité.

L’“’index bloat » est généralement utilisé pour décrire un type de page qui ne fournit aucune valeur. Cela revient souvent à n’importe quel type de contenu mince, en particulier dans les cas où vous multipliez ou amplifiez le nombre de pages existantes sans fournir de valeur substantielle sur chaque nouvelle page.

Les cas classiques où vous voudrez vérifier le nombre de type de page indexées afin de déterminer si elles apportent une valeur ajoutée sont :

Les paramètres
La pagination
Les forums
Les pages relatives aux répertoires ou pages satellites
Les pages locales (villes) ne différenciant pas les services ni les contenus
Navigation à facettes

Comment l’indexation affecte un site dans son ensemble

Aujourd’hui, vous ne voulez pas que les pages non standardisées soient indexées, car elles ont une incidence sur la façon dont Google voit et évalue votre site dans sa globalité.

Une grande partie de cela revient au budget de crawl. Gary Illyes et John Mueller ont souvent déclaré que la plupart des sites Web n’avaient pas à s’inquiéter du budget de crawl, la discussion d’aujourd’hui vise essentiellement des gros sites, où ces sujets font la différence.

Assurez-vous que Google ne trouve que du contenu de bonne qualité.

À l’instar de la corrélation que Kevin observe entre le taux de crawl, l’indexation et le classement, il observe également que prêter attention à la qualité des pages indexées semble porter ses fruits pour l’ensemble du site. Bien qu’il soit difficile de faire des déclarations universelles, il semble que Google dispose d’une sorte de mesure de la qualité du site qui dépend des pages indexées de ce même site. En d’autres termes, si vous avez beaucoup de contenus de faible qualité indexé, cela va affecter directement votre site.
C’est là que « l’index bloat » est préjudiciable : cela va réduire le « score » qualité de votre site et de gaspiller inutilement votre budget de crawl.

Sitemaps XML pour une indexation rapide

Selon Kevin, comme Google est devenu plus intelligent, le nombre de « hacks » a diminué avec le temps.

Cependant, en ce qui concerne l’indexation, il a découvert un moyen rapide de l’obtenir, moyen qui consiste à utiliser un sitemap XML.

Récemment, G2 a migré vers un nouveau domaine. Ils ont un type de page qui nécessite beaucoup de temps pour être crawlé à nouveau. Par conséquent, dans l’index de Google, vous voyiez toujours l’ancien domaine dans les extraits de code pour les pages de ce même type. Lorsque Kevin a vu que les redirections 301 n’étaient pas prises en compte car elles n’avaient pas encore été crawlé, il a placé toutes les pages de ce type dans un sitemap XML et l’a fourni à Google dans la Search Console.

Cette stratégie peut également être utilisée en cas de changement technique majeur sur le site et que Kevin souhaite informer Google le plus rapidement possible.

Importance croissante du SEO technique

Le SEO technique a pris de l’importance au cours des trois dernières années. Souvent, les questions techniques du SEO mettent en évidence des domaines réellement sous-estimés.

Parfois, vous entendez dire que le contenu et les backlinks sont les seules choses dont vous avez besoin. Malgré que ces domaines aient beaucoup d’impact, un SEO technique de qualité pourrait avoir un meilleur impact.

Q&A

– Bing et indexation de 10 000 URL / jour

Bing offre aux webmasters la possibilité de soumettre directement jusqu’à 10 000 URL par jour via leurs outils de webmaster pour une indexation plus rapide.

Kevin pense que Google pourrait également s’orienter dans cette direction. Google, en tant que société lucrative, doit protéger ses ressources. C’est l’une des raisons pour lesquelles, si vous gaspillez leurs ressources de crawl, ils s’adapteront en conséquence.

La pertinence de ce type de fonctionnalité pour les webmasters dépendra également de la taille de votre site. Le nombre de sites susceptibles de soumettre autant d’URL par jour est limité, probablement des milliers ou dizaine de milliers. Kevin présume que, pour ces sites, Google consacre déjà d’importantes ressources. Il semble que Google indexe les sites les plus importants du Web, avec des exceptions.

Il est probablement plus facile pour Bing d’implémenter quelque chose à cette échelle : leur part de marché est beaucoup plus réduite, de sorte que la demande pour cette fonctionnalité est moindre. La taille de leur index est également beaucoup plus petite, ce qui leur permet de bénéficier d’avantages par rapport aux autres.

– Lorsque Google ignore le fichier robots.txt

Google n’ignore que très rarement le fichier robots.txt.

Google peut parfois indexer des pages bloquées par le fichier robots.txt, qui peuvent toujours être trouvées de différentes manières.

Vous pouvez également demander à Google d’ignorer les directives de votre fichier robots.txt si votre syntaxe dans le fichier robots.txt est incorrecte :
Caractères erronés
Utilisation de balises qui ne fonctionnent pas ou ne devraient pas fonctionner, telles que les directives noindex

[Remarque : Kevin cite une étude de cas qui a montré que Google respecte les directives noindex présentées dans le fichier robots.txt. Cependant, peu après la diffusion de ce webinaire, Google a annoncé la fin du support tacite de cette directive dans les fichiers robots.txt, à compter du 1er septembre 2019.]

Cependant, Google est l’une des sociétés qui impose des normes élevées à ses robots et n’ignore pas le fichier robots.txt.

Meilleure recommandation

« Le PageRank est le facteur principal qui influe sur la vitesse et le volume d’indexation. »

SEO in Orbit est parti dans l’espace

Si vous avez manqué notre voyage dans l’espace, découvrez quelles astuces nous avons envoyées le 27 juin dernier.

Rebecca Berbel Voir tous ses articles

Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.

Les commentaires sont fermés.