Google Crawl Stats Report vs Analyse des fichiers de logs: Quel est le gagnant ?

22 décembre 2020 - 11  min de lecture - par Rebecca Berbel
Accueil > SEO Technique > Google Crawl Stats Report vs Analyse des logs

Le 24 novembre, Google Search Console a publié une nouvelle version de son rapport « Crawl Stats ». Avec cette mise à jour, vous avez accès à des données utilisables pour résoudre les problèmes de crawl et vérifier la santé de votre site.

La version précédente indiquait uniquement le nombre de pages crawlées par jour, les kilo-octets téléchargés par jour, le temps passé à télécharger des pages par jour.

Avec cette nouvelle version, les mêmes informations sont disponibles avec une présentation réactualisé pour correspondre au reste de la Search Console :

Mais cela ne s’arrête pas là. Google fournit beaucoup plus d’informations sur la façon dont il crawl votre site. Et avec autant d’informations disponibles directement auprès de Google, on peut se demander si nous avons encore besoin de fichiers de logs.

Commençons par examiner le nouveau rapport lui-même.

Tout ce que vous devez savoir sur le Google Search Console Crawl Stats Report

Où peut-on trouver le nouveau Crawl Stats Report ?

Le nouveau crawl stats report est automatiquement disponible pour toute personne possédant un compte Google Search Console.

Connectez-vous à Google Search Console et accédez aux « Settings » dans la barre latérale gauche. Cliquez ensuite sur « Crawl Stats ».

Que contient le nouveau Crawl Stats Report ?

Pour vous aider à trouver votre chemin parmi les nombreuses nouvelles informations, nous vous recommandons le guide de Tomek Rudzki sur Twitter :

Tomek met en évidence les nouvelles données et l’utilisation SEO pour chacune d’entre elles :

  • Hôtes avec le plus grand nombre de visites sur Googlebot : trouvez les sous-domaines qui sont le plus souvent crawlés par Google.
  • Codes de statut renvoyés à Googlebot : découvrez quel pourcentage de votre budget de crawl est utilisé par des réponses autres que 200 (c’est-à-dire : redirections, pages manquantes et erreurs).
  • Type de fichier : comprendre à quelle fréquence Googlebot demande des fichiers de ressources comme des fichiers CSS, des fichiers JavaScript et des images.
  • Le but de la visite de Googlebot : savoir si Google découvre de nouveaux contenus ou rafraîchit des contenus qu’il connaît déjà.
  • La répartition entre les demandes faites par le smartphone Googlebot et celles faites par l’ordinateur Googlebot : confirmer si votre site est prêt pour le passage complet à l’indexation Mobile-First en mars 2021.
  • Un échantillon d’URL crawlées : faites-vous une idée de certaines des URL récemment crawlées sur votre site.
  • Statut de l’hôte : une nouvelle mesure qui indique si votre serveur a connu des problèmes récemment. Par exemple, cela prend en compte la disponibilité de robots.txt et la résolution DNS.

Notre top 3 à propos du rapport Crawl Stats

Les avantages offerts par le rapport Crawl Stats sont trop nombreux pour les énumérer tous, en particulier si vous n’avez pas accès aux fichiers de logs. Mais voici nos trois principaux avantages :

1. Ce rapport est destiné à tout le monde.
Il fournit des statistiques de haut niveau, faciles à lire, sur le crawl de Googlebot. Il indique clairement quand les choses vont bien et quand il y a des problèmes à régler. Dans certains cas, il va même plus loin : par exemple, il fournit des indicateurs de statut vert/jaune/rouge pour le statut d’hôte.

Même si vous êtes nouveau dans le domaine des bots et du budget crawl, vous ne devriez pas être perdu en regardant ces rapports.

2. La documentation est excellente.
Non seulement elle répond à 99 % de vos questions, mais elle donne également des conseils et des bonnes pratiques sur la santé des serveurs, les signaux d’alerte, la gestion de la fréquence de crawl et les querelles de base avec Googlebot.

3. Données sur le « pourquoi » des demandes de Googlebot
Nous pouvons suivre Googlebot, mais de nombreuses conclusions sur les raisons pour lesquelles Google visite une page doivent être tirées sur la base de données limitées. La section « Crawl By Purpose » et les requêtes de rendu qui sont visibles sous « Page Resource Load » fournissent une réponse non ambiguë à certaines de nos questions. Nous savons maintenant avec certitude si Google découvre une page, met à jour la page ou télécharge une ressource dans un second passage séparé afin de rendre la page.

[Étude de cas] Gérer le crawl du robot de Google

Avec plus de 26 000 références produit, 10001pneus avait besoin d’un outil fiable pour surveiller leur performance SEO et s’assurer que le budget de crawl de Google était bien dédié aux bonnes catégories et aux bonnes pages. Découvrez comment Oncrawl les a aidé à contrôler le comportement de Google et à optimiser le budget de crawl du sites e-commerce.

Quelle est la différence entre les informations disponibles dans les fichiers de logs et le rapport Crawl Stats

Les Crawl Stats sont limités aux Googlebots

Crawl Stats:0
Les logs : 1

Les fichiers de logs de votre serveur enregistrent toutes les requêtes concernant les fichiers et les ressources qui composent votre site web, quelle que soit leur origine. Cela signifie que les logs peuvent vous renseigner sur bien plus que Googlebot.

Toutefois, le rapport Google Crawl Stats Report est (naturellement !) limité à l’activité de Google sur votre site.

Voici quelques informations que vous pouvez obtenir à partir des fichiers logs qui n’apparaissent pas dans les Crawl Stats :

  • Informations sur d’autres moteurs de recherche, comme Bing. Vous pouvez voir comment ils crawlent votre site, mais aussi comment leur comportement diffère ou s’aligne sur celui de Googlebot :

  • Informations sur les outils (et les concurrents) qui essaient de crawler votre site. Comme les informations disponibles ne se limitent pas à Googlebot, vous pouvez également voir si d’autres robots sont actifs sur votre site.
  • Informations sur les pages de référence. Cela peut vous aider à trouver plus d’informations sur vos liens de renvoi les plus actifs. Dans HTTPS, la dernière page visitée, ou « page de renvoi », est également enregistrée à chaque demande.
  • Des informations sur le trafic organique… et pas seulement sur le trafic de Google ! Grâce aux pages de renvoi, vous pouvez identifier le trafic des pages de résultats des moteurs de recherche, et mieux voir comment ces visiteurs interagissent avec votre site. Ce type d’information peut être utilisé pour confirmer ou corriger les chiffres fournis par votre solution Analytics, si vous en utilisez une.
  • Identification des pages orphelines. Étant donné que vos logs contiennent toutes les URL demandées par les visiteurs, toutes les pages « actives » avec un trafic de robots ou de personnes qui ne sont pas liées à la structure de votre site apparaîtront dans vos logs. En comparant une liste d’URLs dans vos fichiers de logs à une liste d’URLs dans la structure de votre site à partir d’un crawl, il sera facile de repérer les pages orphelines.

Complet et à jour ?

Crawl Stats : 0
Les logs : 2

Vos données sont-elles complètes et à jour ? Vos logs le sont. Et votre Crawl Stats Report pourrait l’être.

De nombreuses personnes ont rapidement remarqué des différences de 20 à 40 % entre le rapport Google Search Console et leurs fichiers de logs : les Crawl Stats signalent une sous-estimation de l’activité du Googlebot pour le moment. C’est un problème connu dans le Crawl Stats Report – mais pas dans vos fichiers de logs !

De plus, comme pour toutes les informations de la Search Console, il peut y avoir un décalage entre la dernière date disponible des données et la date d’aujourd’hui. Jusqu’à présent, nous avons constaté une différence allant jusqu’à huit jours dans le Crawl Stats report.

D’autre part, vous pouvez utiliser vos fichiers de logs pour un suivi en temps réel : il n’y a jamais de retard !

Liste globale ou liste complète des URLs crawlées

Crawl Stats : 0
Les logs : 3

Les Crawl Stats fournissent des données agrégées pour toutes vos URLs. Le rapport est l’équivalent d’un tableau de bord. Lorsque vous allez chercher la liste des URLs derrière un indicateur donné, vous verrez une liste d' »exemples ». Par exemple, vous pourriez avoir quelques centaines d’exemples parmi vos 4,56K de demandes de fichiers d’images :

Cependant, dans les fichiers de logs, vous avez une liste complète des URLs derrière chaque indicateur. Vous pouvez voir TOUTES les requêtes dans vos logs, pas seulement un échantillon.

Filtrage pour les régions, les dates, les URL…

Crawl Stats : 0
Les logs : 4

Pour être vraiment utiles, les Crawl Stats pourraient bénéficier de filtres plus larges qui s’appliquent à toutes les demandes, et pas seulement aux échantillons :

Il serait bon d’avoir plus de flexibilité pour :

  • Modifier la période de référence
  • Concentration sur une région géographique donnée par recherche d’IP
  • Meilleur filtrage par groupes d’URL
  • Appliquer des options de filtrage aux graphiques

Vous pouvez faire tout cela – et bien plus encore – avec des fichiers de logs.

Informations spécifiques aux Googlebot

Crawl Stats : 1
Les logs : 4

Comme nous l’avons vu, Google utilise le Crawl Stats Report pour fournir des informations sur l’objectif de son crawl :

  • Rafraîchir ou découvrir
  • Ressources de la page (une recherche secondaire)

Ces informations ne peuvent être trouvées nulle part ailleurs, même en regardant intelligemment les données dans vos fichiers de logs.

Pas (encore) disponible pour intégration dans d’autres outils et analyses

Crawl Stats : 1
Les logs : 5

La Google Search Console vous permet d’exporter et de télécharger les informations disponibles via l’interface web du rapport Crawl Stats. Cela signifie toutefois que les informations téléchargées présentent les mêmes limitations que les versions à l’écran.

En outre, les Crawl Stats ne sont pas (encore ?) disponibles via l’API, de sorte qu’il peut être difficile de connecter ces informations à des processus automatisés de rapport et d’analyse, ou même de les sauvegarder pour obtenir une vue plus large des données historiques.

Avec les fichiers de logs, le stockage, l’accès et la réutilisation dépendent généralement de vous. Cela rend les fichiers de logs beaucoup plus faciles à utiliser lors de la fusion avec d’autres sources de données comme le suivi des positions, les données de crawl ou les données d’analyse. Ils sont également plus faciles à intégrer dans les flux de rapports, de tableaux de bord et de visualisation des données.

Un accès facile

Crawl Stats : 2
Les logs : 5

L’accès au rapport Crawl Stats est simple : toute personne ayant accès à la Search Console a automatiquement accès au Crawl Stats Report.

Techniquement, les fichiers de logs devraient également être accessibles à tout webmaster. Mais ce n’est souvent pas le cas. Souvent, les équipes de développement, les équipes informatiques ou les entreprises clientes ne comprennent pas l’importance de donner accès aux fichiers de logs. Dans des zones comme l’UE, où les lois sur la protection de la vie privée limitent l’accès aux « données personnelles identifiables », comme les adresses IP, l’accès aux fichiers de logs peut poser un problème juridique.

Une fois que vous avez accès aux fichiers de logs, il existe des outils gratuits pour analyser les données, et il y a peu de formats propriétaires. En d’autres termes, les fichiers de logs sont une source de données assez démocratique… une fois que vous avez mis la main dessus.

C’est un fait : beaucoup de SEO ont des difficultés à accéder aux logs. Ainsi, alors que, théoriquement, les fichiers de logs permettent d’accéder facilement aux données, le point sur celui-ci va au rapport Crawl Stats, qui est disponible en deux clics sur l’outil gratuit de Google.

Le gagnant final : les fichiers de logs !

Avec cinq points contre seulement deux pour le rapport Crawl Stats, les fichiers de logs sont clairement les gagnants ici si vous voulez avoir un aperçu complet de la façon dont les moteurs de recherche interagissent avec votre site.

Mais soyons clairs : le rapport Crawl Stats amélioré fournit de nombreuses nouvelles informations : status codes, types de fichiers, sous-domaines (pour les propriétés du domaine), détails sur l’état de l’hôte, et plus encore. Il vous donne des informations plus précises et des données plus exploitables pour comprendre comment votre site web est crawlé et vous pouvez désormais suivre les changements dans les modes de crawling.

Ce sera un grand pas en avant pour les personnes qui ne peuvent pas accéder à leurs fichiers de logs ou à ceux de leurs clients.

Cependant, tout n’est pas rose pour autant !

L’inconvénient de ce nouveau rapport est que, s’il constitue un bon tableau de bord pour la surveillance des Googlebots et un excellent complément à l’analyse des fichiers de logs, il est limité à bien des égards. N’oubliez pas que seuls vos fichiers de logs vous montreront toutes vos requêtes par URL plutôt qu’une tendance globale.

En outre, il y a un problème connu dans le rapport du SGC où certaines demandes ne sont pas comptées pour le moment, et les données peuvent prendre – au moment où nous écrivons ces lignes – jusqu’à une semaine pour apparaître dans le rapport Crawl Stats. (Cependant, nous sommes convaincus que Google travaille sur ces problèmes et qu’ils vont bientôt disparaître).

Voici ce que nous vous recommandons : utilisez ce rapport pour savoir exactement ce qu’il faut chercher dans vos fichiers de logs. Et ensuite, plongez dans votre analyse de logs !

Rebecca Berbel Voir tous ses articles
Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.
Sujets en lien :