Un site bien organisé permet aux moteurs de recherche de crawler plus efficacement, garantissant ainsi la découverte, l’indexation et le positionnement du contenu de valeur dans les résultats de recherche.
En revanche, un site complexe ou mal structuré peut entraver ce processus, en gaspillant les ressources de crawl allouées au site web (ce que l’on appelle généralement le budget crawl) et en diminuant la visibilité du site en ligne.
L’architecture de votre site web peut faciliter ou gêner la capacité de Google à allouer des ressources de crawl de manière efficace.
Le budget de crawl, ou comme je préfère l’appeler les ressources de crawl, fait référence au nombre de pages que Google va crawler dans un laps de temps donné sur un site web spécifique.
Ce budget n’est pas infini ; c’est pourquoi il est essentiel de comprendre sa dynamique pour comprendre comment Google découvre de nouveaux contenus (URLs) et des mises à jour de contenu.
Des facteurs tels que la vitesse du site, la nouveauté du contenu, la qualité du contenu et l’autorité du site peuvent influencer la manière dont Google attribue les ressources de crawl.
La relation entre la qualité et les ressources de crawl est, à mon avis, un domaine du SEO souvent négligé et dont on parle peu. Nous savons qu’il existe des seuils de qualité pour l’indexation, et nous pouvons également constater, grâce à des tests et à des années d’étude des données, que Google peut effectuer une forme “d’empreinte digitale” sur les structures URLs d’un site web.
Qu’est-ce que l’empreinte digitale d’URL ?
L’empreinte d’URL est un processus utilisé par Google afin d’analyser et de classer les pages web en fonction de leur structure URL.
Cette méthode permet à Google d’identifier des schémas qui suggèrent la qualité potentielle, la pertinence et le caractère unique du contenu.
En examinant les éléments structurels d’une URL, notamment les répertoires de chemins, les paramètres de requête et les conventions de dénomination, les algorithmes de Google peuvent déduire la probabilité qu’une page contienne un contenu utile ou dupliqué.
Cette évaluation joue un rôle essentiel pour déterminer si une page mérite d’être crawlée, indexée et, en fin de compte, positionnée dans les résultats de recherche.
Nous observons souvent ce phénomène sur les sites web qui publient soudainement un grand nombre d’URL à l’aide de contenu programmatique et, plus récemment, dans les contenus publiés à grande échelle par l’IA ou assistés par l’IA.
L’utilisation par Google de l’empreinte d’URL
L’objectif premier de Google en matière d’indexation de contenu est d’améliorer l’expérience des utilisateurs en leur proposant des résultats de recherche pertinents et de qualité.
L’empreinte d’URL sert de filtre pour atteindre cet objectif, en aidant à éliminer les contenus de faible qualité avant qu’ils ne consomment de précieuses ressources de crawl.
Par exemple, Google peut identifier des modèles d’URLs associés à des pages générées dynamiquement qui offrent généralement peu de valeur unique (par exemple, des identifiants de session, des paramètres de suivi) et déprioriser leur crawl.
Ceci est également lié à l’inventaire perçu de votre site web.
Si vous passez du jour au lendemain d’un site de 2 000 URLs à un site de 3 000 URLs, vous avez considérablement augmenté les ressources demandées à Google. Si Google commence à crawler ces nouvelles URLs et identifie un pourcentage d’entre elles comme étant de faible qualité, il peut, à titre préventif, évaluer et retirer ou déprioriser les ressources nécessaires pour crawler les URLs restantes en se basant sur le fait qu’elles pourraient être de qualité également faible.
Le symptôme de cette situation est l’apparition de deux statuts d’indexation courants dans la Google Search Console :
- Crawlé – actuellement non indexé
- Découvert – actuellement non indexé
[Étude de cas] Améliorer la visibilité via une crawabilité optimisée pour Googlebot
Crawlé – actuellement non indexé
Lorsque Google Search Console signale qu’une URL est « Crawlée – actuellement non indexée », cela signifie que le robot d’exploration de Google (Googlebot) a visité et crawlé cette page spécifique, mais a choisi de ne pas l’inclure dans l’index de recherche. Cette situation est le plus souvent due à :
- Qualité du contenu : le contenu peut ne pas être conforme aux règles de qualité de Google. Il peut être considéré comme mince, dupliqué ou sans valeur pour les utilisateurs.
- Problèmes techniques : la page peut présenter des problèmes techniques qui empêchent son indexation, tels qu’une mauvaise utilisation des directives noindex ou d’autres signaux qui découragent l’indexation.
- Stabilité : les URLs peuvent être retirées de l’indexation si la nouveauté est un facteur important et hautement pondéré dans ce que Google perçoit comme une qualité pour les termes de recherche et les objectifs des utilisateurs ciblés par l’URL.
Découvert – actuellement non indexé
Ce statut indique que Google connaît l’URL (elle a été découverte, probablement par le biais de sitemaps ou de liens provenant d’autres pages), mais qu’il n’a pas encore crawlé ou indexé la page. Par expérience, cela s’explique probablement par les raisons suivantes :
- Contraintes liées au budget de crawl : Si un site comporte un grand nombre de pages, Google peut donner la priorité aux pages à crawler en fonction de facteurs tels que la structure du site, l’importance de la page ou sa nouveauté. Par conséquent, certaines pages découvertes peuvent attendre plus longtemps avant d’être crawlées et indexées.
- Faible priorité : Google peut évaluer la priorité du crawl de certaines pages par rapport à d’autres en fonction de divers signaux. Si une page est considérée comme faiblement prioritaire, elle peut rester dans l’état « découvert » pendant un certain temps. Cela peut s’expliquer par le fait que la page a été traitée directement et jugée faiblement prioritaire, ou par le fait que le chemin d’accès à l’URL sur laquelle elle se trouve a été jugé faiblement prioritaire.
- Problèmes techniques temporaires : Parfois, des problèmes temporaires (tels que l’indisponibilité du serveur ou des erreurs) peuvent retarder le processus de crawl, laissant les pages dans l’état « découvert » mais non crawlé.
Les points essentiels à retenir
L’architecture et l’organisation de votre site web jouent un rôle crucial dans l’efficacité du crawl des moteurs de recherche.
Un site bien structuré peut grandement améliorer l’allocation des ressources de crawl, garantissant que le contenu de valeur est facilement découvert, indexé et positionné.
En revanche, un site mal organisé peut gaspiller ces ressources, ce qui se traduit par une diminution de la visibilité du site web.
Il est essentiel de comprendre le concept de budget de crawl – ou de ressources crawl – et les facteurs qui l’influencent, tels que la vitesse du site, la nouveauté et la qualité du contenu, ainsi que l’autorité du site, pour optimiser la manière dont Google découvre et évalue votre contenu.