Le webinaire Baser l’analyse de logs sur une approche orientée résultats fait partie de la série SEO in Orbit et a été diffusé le 7 mai 2019. Au cours de cet épisode, nous avons discuté des différentes applications de l’analyse de logs qui peuvent être appliquées directement à votre stratégie SEO pour des résultats mesurables. Ian Lurie et Alice Roussel d’OnCrawl ont détaillé des cas d’usage d’analyse de log appliqués au SEO.

SEO in Orbit est la première série à envoyer le SEO dans l’espace. Tout au long de la série, nous avons débattu sur le présent et le futur du SEO technique avec certains des experts les plus qualifiés et avons envoyé leurs meilleurs conseils dans l’espace le 27 juin 2019.

Regardez le replay ici :

Présentation de Ian Lurie

Ian Lurie est un consultant en digital marketing disposant de plus de 25 ans d’expérience. Plus tôt dans sa carrière, il a fondé Portent, une agence Clearlink Digital. Portent fournit des services de paid et organic search, de social media, de contenu et d’analytics à des marques B2B et B2C comme Patagonia, Princess, Linode et Turni.

Les spécialités professionnelles et sujets favoris de Ian sont les stratégies marketing, le search, l’histoire et tous les sujets “nerdy”. Il passe beaucoup trop de temps à lire des brevets search Amazon, analysé les classements Google et la théorie du natural language processing. Son parcours scolaire inclut un bachelor en histoire de l’université de San Diego et un diplôme en droit de UCLA. Ian a récemment écrit à propos de l’analyse de logs sur le blog de Portent. Vous pouvez le trouver sur Twitter à @ianlurie

Cet épisode a été animé par Alice Roussel, SEO Operations Manager chez OnCrawl. Alice met à profit ses années d’expérience en tant que Technical SEO Manager en agence. Elle offre un support quotidien et des formations sur mesure à ses clients afin de booster leur capacité à trouver des points clés actionnables dans les données de crawl. Passionnée d’analyse de données et de la manière dont cela peut être utilisé en SEO, elle utilise ses compétences techniques pour faire une différence. Sa journée idéale implique la lecture de brevets Google et le lancement d’analyse de log. Vous pouvez aussi la trouver sur Twitter ou sur son blog https://merci-larry.com

Qu’est-ce qu’un fichier de log ?

Un fichier de log est un fichier texte gardé dans un serveur. Les fichiers de log peuvent contenir toute sorte d’informations différentes.

Lorsqu’un client, un navigateur ou un bot demandent n’Importe quel fichier d’un site web, le serveur ajoute une ligne au fichier.

Chaque ligne inclut certaines informations, ce qui varie en fonction de la configuration du site et du serveur. Habituellement, vous trouverez :

  • Le referrer : la chose (item, site…) qui a été cliquée ou vue et qui a permis au visiteur de trouver son chemin sur l’item actuel du site web
  • User-Agent : une identification du type d’utilisateur ou bot
  • Adresse IP : l’adresse numérique du client
  • Date et heur de la visite
  • URL de la page ou du fichier
  • Status code : ce qu’il s’est passé quand le fichier a été demandé
  • Taille du fichier : possiblement le plus gros volume de données dans une ligne de log. Cela indique quel volume d’information a été transféré en KB lorsque la page ou le fichier ont été demandé

Lorsque nous parlons de visites dans les lignes du fichier log, cela n’a pas la même connotation que dans le monde des analytics, où les visites ne sont pas une façon assez précise de quantifier les visiteurs. Lorsqu’il s’agit de fichiers log, par contre, chaque demande d’informations est une visite, elle produit une seule et unique ligne dans le log. C’est pour cela qu’une visite est une métrique précise en ce qui concerne l’activité d’un site.

Les fichiers de log comme “unique source de vérité”

Ian crédit un collègue de Portent pour la phrase “unique source vérité” : le seul endroit où l’on sait que l’on va obtenir les mesures les plus fiables.

Lorsqu’il s’agit de mesurer le trafic web, les fichiers de log sont l’unique source de vérité. Si quelque chose sur les serveur web est demandé, cela va apparaître dans les fichiers de log. N’importe quel fichier est visité par n’importe quel client sera enregistré, à la condition que le serveur soit bien configuré.

JavaScript, qui est souvent utilisé pour déclencher les pixels analytics comme Google Analytics peut être inexact pour de nombreuses raisons :

  • Il peut être mal configuré
  • Les bots peuvent ne pas le déclencher
  • Les navigateurs qui ne supportent pas JavaScript ne vont pas le déclencher
  • Les pages lentes à charger peuvent l’empêcher de se déclencher

Peu importe ce qu’il se passe avec le pixel analytics, la visite est toujours enregistrée par le fichier de log.

Fichiers de log sous utilisés

Ian a passé beaucoup de temps à persuader ses clients d’autoriser les SEOs à accéder à leurs fichiers de logs. Vu comment il est difficile pour les SEOs d’accéder à ces données, nous pouvons dire que les fichiers de log sont largement sous estimés. Cela est aussi appuyé par l’expérience de Ian avec certains de ses clients qui n’avaient jamais entendu parler de l’analyse de logs. Il existe de nombreux insights qui peuvent être obtenus via l’analyse de log qui sont sous exploités aujourd’hui.

Les fichiers de log existent depuis plus de 20 ans, mais les SEOs n’y ont jamais vraiment prêté attention.

Cas d’utilisation pour les fichiers de log en SEO :

Ajuster la distribution de budget de crawl

S’assurer que les Googlebots passent du temps sur vos pages clés et ajuster la distribution de votre budget de crawl est l’une des principales utilités des fichiers de log.

Trouver des liens brisés causant un gaspillage du crawl et des chutes de classement

Il y a quelques années, Ian a eu un client avec un gros site sur lequel chaque page disposait d’un lien “partager avec un ami” et d’un autre lien “obtenir plus d’informations”. Lorsque le site a été relancé par le client, les classements ont plongé et il était difficile de diagnostiquer les problèmes comme tout semblait correct. Le SEO on-page et les indications d’index de Google semblaient très bien.

Cependant, dans les fichiers de log, il était clair que le Googlebot se heurtait à des centaines de milliers de pages qui n’étaient pas visibles sur le site. Il s’est avéré que le client pensait avoir retiré ces liens des pages mais qu’il les avait juste rendu invisible. Google passait 90 % de son temps à crawler ces liens invisibles et seulement 10 % de son temps et énergie sur des pages avec du contenu important.

Parce que ces liens n’étaient pas visibles, sans les fichiers de log, il aurait fallu des semaines ou mois pour diagnostiquer et corriger la chute de classement.

Vérifier que les bots visitent les bonnes pages

Ian recherche habituellement la qualité plus que la quantité. Il n’y a pas d’importance que les robots des moteurs de recherche visitent un site plus ou moins souvent après une analyse SEO. Il est plus utile de regarder aux points suivants afin de sire si oui ou non vous disposez d’un bon comportement de bot :

  • Est-ce que les bots des moteurs de recherche accèdent aux pages voulues ?
  • Est-ce qu’ils accèdent aux fichiers et pages auxquelles nous ne voulons pas qu’ils accèdent ?
  • Est-ce qu’il y a certaines pages que les bots négligent ou n’accèdent pas ?

Vérifier le nombre de chaque status HTTP

Vérifiez combien de types de chaque réponse sont actuellement fournies aux bots :

  • 404
  • 302
  • 5xx
  • 200

La Google Search Console ne fournit pas toujours des données fiables sur cela, les fichiers de log représentent une source bien plus fiable pour la mesure de cette métrique.

Confirmer si Google suit les directives

En utilisant les fichiers de log pour suivre le comportement du Googlebot, nous avons vu des changements dans la manière dont Google supportait certaines directives. Nous pouvons voir comment Google parcourt les pages, ce qui nous permet de voir si nos déclarations de directives fonctionnent vraiment.

Il est aussi utile de vérifier que le Googlebot obéit aux déclarations noindex et nofollow. Cela peut nous indiquer si ces directives fonctionnent, s’ils ont marché auparavant ou si Google a commencé à les ignorer.

[Note : Depuis la diffusion de cet épisode, Google a annoncé que le nofollow serait plus considéré comme un indice que comme une directive. Utiliser des fichiers de log pour confirmer si oui ou non l’indice a été suivi sur votre site web va devenir de plus en plus important comme cela commencer à influencer les classements et l’indexation.]

Lorsque Google recommande aux SEOs d’utiliser des directives ou stratégies, Ian est souvent sceptique, comme avec le rel=next/prev. Bien que le conseil de Ian soit de suivre les recommandations de Google, il s’appuie aussi sur le fichiers de log pour voir si cela fait une différence dans le comportement du Googlebot ou non sur les sites web sur lesquels il travaille. Dans le cas précis du rel=next/prev, regarder le comportement du Googlebot sur les pages paginées n’est pas nouveau. Nous pouvons garder un oeil sur ce comportement pour voir s’il y a des changements :

  • Est-ce que les Googlebots entrent soudainement dans des tunnels de pagination dans lesquels ils étaient auparavant bloqués ?
  • Est-ce qu’ils commencent à crawler des pages dans un cycle de pagination, mais plus dans l’ordre ? (cela indiquerait que le rel=next/prev ne fonctionne plus parce que Google ne traite plus “next” comme “suivant” et ne suit pas la séquence malgré le fait qu’il l’ait identifié.)

Suivre les délais entre la publication et le premier trafic organique

Pour les médias en ligne, il s’agit d’un usage courant : mesurer le temps nécessaire entre la publication de la page, le moment ou Google commence à la crawler et quand elle se montre dans les classements.

Les fichiers de log sont une excellente manière de comprendre comment une page a été “vue” par Google. Ils peuvent aussi être une technique pour rassurer les éditeurs, surtout sur les grands sites, qui sont inquiets lorsqu’un contenu publié ne reçoit pas encore de trafic. Les fichiers de log peuvent aider à déterminer si le manque de trafic est dû à l’absence de visite de Google. Selon la réponse, la solution sera différente.

Bénéficier d’information mise à jour en temps réel

Les fichiers de log peuvent aussi être utilisés parce que la Google Search Console peut ne pas être complètement à jour. Nous pouvons trouvons en seulement quelques minutes en analysant les fichiers de log si oui ou non les Googlebots ont consulté une ressource particulière.

Examiner les corrélations entre l’indexation et la performance de la page

Il n’y a pas de corrélation parfaite entre le moment où une page est visitée par un bot et lorsqu’une page va apparaître pour la première fois dans l’index. Cependant, Ian a constamment remarqué que si une page était visitée par un bot, elle apparaîtra dans les SERPs dans un court laps de temps.

En résumé, il n’y a pas de délais requis pour qu’une page soit indexée mais vous pouvez utiliser les fichiers de log pour déterminer ce qui est normal pour votre site et ajuster vos attentes en fonction.

Observer les avantages de l’autorité du site dans le temps d’indexation

Un “court laps de temps” peut se situer entre 30 minutes et 30 jours. Et en général, plus un site est populaire et une source d’autorité notable, plus il va rapidement se montrer dans l’index de Google.

Si vous êtes un site d’actualités du top 20 et qu’une de vos pages visités par le Googlebot ne se montrent pas dans l’index après une heure, il faut s’inquiéter. D’un autre côté, si vous êtes un média moins connu et que le Googlebot atterrit sur la page, il faut vous inquiéter au bout d’une semaine.

Comment améliorer le temps d’indexation :

SEO technique

Ian se tournera toujours vers le SEO technique en premier lorsqu’il doit indexer et classer une page rapidement. Les améliorations techniques qui affectent la vitesse d’indexation peuvent inclure, par exemple, la performance du site : plus Google peut crawler une page rapidement, plus les pages auront de chances de se retrouver dans l’index.

EAT

L’EAT (Expertise – Authority – Trustworthiness) a un impact aujourd’hui sur la vitesse à laquelle une page apparait dans l’index.

Hiérarchie et architecture de site

Les pages doivent être liées aussi haut que possible dans la hiérarchie du site. En analysant les preuves dans les fichiers de log, il est plutôt clair, au moins pendant les premières minutes du crawl d’un site, que le Googlebot crawle un site en commençant par le haut de la hiérarchie, souvent la page d’accueil.

Démontrer l’importance des pages grâce au maillage interne

Les liens internes à l’intérieur de votre site devraient indiquer l’importance d’une page. Pour qu’une page se classe plus rapidement, de multiples pages sur le site doivent pointées vers elle et c’est encore mieux si celles-ci sont la navigation primaire ou secondaire.

Mise en place des formats de log pour le SEO

Les fichiers de log ne sont pas standardisés. Il existe de nombreux formats différents, dont W3C est le plus courant.

Peu importe le format, le point le plus important est de s’assurer que le serveur est configuré pour stocker les bonnes données dans ces fichiers de log. Il est possible que, lorsqu’un serveur est configuré pour la première fois, il ne soit pas automatiquement configuré pour stocker le referrer, le code de réponse ou le user-agent.

Une fois que vous avez compris ce qu’il fallait chercher dans les fichiers de log, il est plutôt simple d’interpréter les données, peu importe leur format. Il est bien plus important de s’assurer que les bonnes données sont présentes. Vous voudrez regarder les informations comme :

  • Le referrer
  • Le user-agent
  • La date et heure
  • Le code de réponse

Éviter des niveaux d’abstraction dans les données

Les SEOs devraient utiliser les fichiers de log car ils sont la seule source de vérité. Si vous êtes un SEO et que vous voulez une vision fiable de la manière dont les bots des moteurs de recherche crawlent votre site, il n’y a pas d’autres manière de le faire.

C’est aussi un moyen de retirer les niveaux d’abstraction apportés par les outils, peu importe s’ils sont utiles, comme la Google Search Console. La Search Console de Google rapporte leur interprétation de ce qu’ils ont vu lorsqu’ils ont visité votre site web. Vous voulez voir comment ils ont visité le site, sans interprétation. 

Avec cela en tête, les fichiers de log ont beaucoup de cas d’usage pour lesquels nous dépendons souvent d’outils interprétatifs : 

  • Trouver des liens brisés
  • Trouver des chaînes de redirection
  • Trouver des redirections temporaires
  • Etc.

Il n’y a pas d’études de cas prédéfinies qui rendent les fichiers de log utiles. Ce qui les rend utiles c’est le fait qu’ils fournissent des données brutes non éditées et non biaisées sur la manière dont les bots crawlent votre site.

Utiliser GREP pour rechercher dans un gros fichier

L’astuce technique favorite de Ian est la ligne de commande Linux de l’outil GREP car elle permet de parcourir un gros fichier très rapidement. Cela peut être utile car les fichiers de log peuvent rapidement devenir énormes. Sur un grand site, en juste un ou deux jours, vous pouvez vous retrouver avec des fichiers de millions de lignes. Et la plupart des outils desktop ne peuvent pas gérer des fichiers aussi gros.

GREP vous permettra de :

  • Filtrer toutes les requêtes d’images
  • Filtrer toutes les requêtes non-bot
  • Seulement regarder les requêtes des Googlebots

Voici une amorce de GREP si vous n’êtes pas familiers avec l’outil.

“Pourquoi est-ce que je devrais vous donner accès à mes logs ?”

C’est la question préférée de Ian. Il est difficile de comprendre une opposition au fait de fournir un fichier de log à un SEO.

Il n’y a pas de problèmes de sécurité à moins que le serveur soit très mal configuré.

C’est très simple à faire : il suffit de zipper le fichier et de l’envoyer.

Les Googlebots à suivre dans un fichier de log

Le Googlebot avec un user-agent smartphone est l’un des bots que Ian suit attentivement pour le moment. Il s’agit d’un bot très important actuellement.

Le Googlebot-image est un autre bot que Ian analyse. Il y a eu de nombreuses preuves récemment montrant que le crawl d’images interfère ou impacte l’intégralité du crawl d’un site.

Les arguments pour obtenir l’accès aux fichiers log d’un client

Si vous ne voulez pas être diplomatique, vous pouvez juste demander : “Pourquoi pas ?” puis essayer d’aider les clients à comprendre pour leur problème ne devrait pas en être un.

Cela revient aussi à l’idée d’unique source de vérité. Vous pouvez parcourir un site manuellement, le crawler avec votre propre crawler, regarder l’index de Google et la Google Search Console. Mais le seul moyen d’avoir une vue fiable sur la manière dont les Googlebots voient votre site est de regarder vos fichiers de log.

C’est plus rapide, plus facile et plus fiable que d’essayer de travailler sans eux.

Fichiers de log et sécurité

Les fichiers de log ne posent pas de questions de sécurité, particulièrement parce que les SEOs n’ont pas besoin d’accéder à votre serveur pour les analyser : ils peuvent être fournis par quelqu’un de votre entreprise.

Vos fichiers de log doivent seulement montrer des choses auxquelles le Googlebot et les utilisateurs accèdent : ces éléments sont déjà accessibles publiquement. Donc il n’y a pas de soucis de sécurité ici à mois que votre site soit si mal configuré que le Googlebot et les utilisateurs voient des choses qu’ils ne devraient pas voir. Dans ce cas, vous devriez probablement laisser un SEO regarder votre site et vous aider !

Bien que donner accès aux fichiers de log sur votre serveur peut poser un potentiel risque de sécurité, le fichier en lui-même et son contenu ne le devraient pas.

Fichiers de log et images

Ian prête une attention particulière aux images dans les fichiers de log car il n’est pas inhabituel de voir des images indexées dans Google Images alors qu’elles ne devraient pas être indexables. Il y a aussi encore beaucoup de sites qui utilisent toujours des images “invisibles” pour leur configuration et beaucoup d’images sont maintenant en “lazy-load” lorsque vous scrollez une page. Les fichiers de log vont vous aider à identifier si oui ou non le Googlebot a du mal avec les images en lazy-load.

La taille des images peut aussi être un problème, mais dans ce cas, les logs ne sont pas le meilleur outil pour obtenir ces données. Vous devriez utiliser un crawler pour régler ce problème.

Les cas où le suivi des logs en temps réel est utile

Il peut y avoir un bénéfice dans l’utilisation du monitoring en temps réel des fichiers logs. Cela dépendra de la taille du site, entre autres choses. Par exemple, un site avec plusieurs milliers de visites par jour ne va pas tirer beaucoup d’avantages d’un suivi en temps réel. Par contre, si vous avez plusieurs millions de visites et d’utilisateurs par jour, il est probable que vous ayez également beaucoup de trafic de Googlebot, et que vous trouverez de l’intérêt d’analyser cela aussi rapidement que possible.

En général, plus votre site est grand et plus souvent vous y ajouterez de nouveaux contenus, plus vous aurez de bénéfices du monitoring de logs en temps réel ou proche du temps réel.

Meilleure recommandation

“Les fichiers log sont l’unique source de la vérité en ce qui concerne le trafic sur un site web.”

SEO in Orbit est parti dans l’espace

Si vous avez manqué notre voyage dans l’espace, découvrez quelles astuces nous avons envoyées le 27 juin dernier.