Se servir d’une analyse de fichiers de logs SEO est une solution pertinente et efficace pour améliorer votre SEO technique et onsite. A vrai dire, vous ne pouvez pas être crawlé, analysé, indexé et classé par les moteurs de recherche sans un SEO adéquat. Les fichiers de logs sont les seules données à être 100% fiables pour comprendre parfaitement comment les moteurs de recherche crawlent votre site. L’analyse de logs vous aide à avoir un meilleur classement, obtenir plus de trafic, de conversion et de ventes. Mais avant de parcourir ses avantages, comprenons d’abord ce qu’est une analyse de logs.

Qu’est-ce qu’un fichier de log serveur ?

Un fichier de log serveur est un fichier résultat fait à partir d’un serveur web contenant des “hits” ou des traces de toutes les requêtes reçues par le serveur.

Les données reçues sont stockées de manière anonyme et comprennent des détails comme l’heure et la date à laquelle la requête a été faite, l’adresse IP de celle-ci, l’URL/contenu demandé et l’user agent du navigateur.
Ces fichiers existent habituellement pour les audits techniques ou durant la résolution des problèmes d’un site mais peuvent être également d’une grande valeur pour les audits SEO. Builtvisible

En fait, lorsqu’un utilisateur renseigne une URL, comme http://www.oncrawl.com, dans un navigateur, voici ce qu’il se passe: le navigateur sépare l’URL en trois parties:

  • Protocole
  • Nom du serveur
  • Nom du fichier

Le nom du serveur (oncrawl.com) est converti en une adresse IP via le serveur du nom de domaine. La connexion réalisée entre le navigateur et le serveur web dédié permet d’atteindre le fichier requis. Une requête HTTP est ensuite envoyée au serveur web pour la bonne page, qui affiche ensuite la page que vous voyez apparaître sur votre écran. Chacune de ses requêtes est donc considérée comme un “hit” par le serveur web.

L’apparence d’un fichier de logs peut dépendre du type de serveur et des configurations utilisées (Apache, IIS etc..) mais il y a des attributs déjà intégrés que vous pouvez retrouver de manière quasi systématique:

  • Serveur IP
  • User-Agent
  • Horodatage (date & heure)
  • Status code HTTP
  • Méthode (GET / POST)
  • Requête URL (ou aussi: URL stem + URL query)

Et ensuite, d’autres attributs peuvent être ajoutés, comme:

  • Nom d’hébergeur
  • Octets téléchargés
  • Temps pris
  • IP de requête/Client

Analyse de fichier de logs et SEO, à quoi ça sert ?

L’analyse de fichiers de logs vous permet de comprendre exactement comment les moteurs de recherche crawlent votre site, puisque que chaque requête réalisée sur le serveur internet est sauvegardée. Vous avez simplement à trier l’user agent et l’adresse IP du client pour accéder aux détails du crawl. Vous pouvez ainsi analyser le comportement des robots sur votre site et repérer les points suivants:

  • Est-ce que votre budget de crawl est dépensé de la bonne manière ?
  • Quelles erreurs concernant l’accessibilité ont été rencontrées pendant le crawl?
  • Où sont les zones de carence du crawl ?

Ces 3 questions représentent seulement la surface du potentiel de l’analyse de logs. L’analyse de logs pourrait également vous aider à déterminer si l’architecture de votre site est optimisée ou si vous avez des problèmes de performances.

Les informations SEO techniques que vous pouvez trouver dans les données de logs

Il y a plusieurs métriques que vous pouvez observer dans vos fichiers de logs pour améliorer votre SEO.

Volume de crawl du robot

Le volume de crawl du robot fait référence au nombre de requêtes effectuées par GoogleBot, BingBot, Baidu, Yahoo et Yandex, ou autre sur une période de temps donnée. Le volume de crawl du bot peut vous montrer si vous avez été crawlé par un moteur de recherche en particulier. Par exemple, si vous voulez qu’on vous trouve en Chine mais que Baidu ne vous crawle pas, cela peut être un problème.

Perte de budget de crawl

Un budget de crawl fait référence au nombre de pages qu’un moteur de recherche va analyser à chaque fois qu’il se rend sur votre site. Ce budget est lié à l’autorité du domaine et est proportionnel au débit d’équité des liens (link equity) sur le site.

En fait, ce budget de crawl pourrait être perdu au profit de pages non pertinentes. Disons que vous avez un budget de 1000 pages par jour, et vous voulez ensuite que ces 1000 pages apparaissent dans les SERPs. Si vous avez du contenu neuf sur lequel vous voulez être indexé mais que vous n’avez plus le budget pour, Google n’indexera pas ce contenu. C’est pour cette raison que vous devriez faire attention à l’endroit où vous dépensez votre budget de crawl grâce à l’analyse de logs.

Redirections 302 temporaires

Ce type de redirection n’est pas optimisé pour votre SEO puisqu’elles ne font pas passer le jus de référencement des liens externes depuis l’ancienne URL à la nouvelle. Choisissez plutôt d’avoir des redirections 301 en permanence. L’analyse des données de logs peut vous aider à repérer ce genre de redirections.

Erreurs de codes réponse

L’analyse des données de logs peut vous aider à repérer les erreurs de status code comme les 4XX et 5XX qui peuvent endommager votre SEO. Comprendre les différents status code HTTP (lien) peut vous procurer un meilleur classement.

Priorité de crawl

Vous pouvez paramétrer votre priorité de crawl dans votre sitemap XML ou en vérifiant votre structure de maillage interne. Cela aide à éviter d’ignorer certaines pages ou sections de votre site. En fait, l’analyse de vos logs peut souligner les URLs ou les répertoires qui ne sont pas souvent crawlés par les robots. Par exemple, si vous voulez qu’une publication spécifique de votre blog se classe sur une requête ciblée mais que celle-ci se situe dans un répertoire que Google ne visite qu’une fois tous les 6 mois, vous raterez votre chance d’obtenir du trafic organique depuis cette publication pour au moins 6 mois.

Crawl des URLs dupliquées

Les paramètres d’URLs comme les filtres ou le suivi peuvent entraîner un gaspillage de votre budget de crawl étant donné que les moteurs de recherche crawlent des URLs différentes mais avec le même contenu. Search Engine Land a écrit un article excellent sur la résolution de ce problème.

Dernière date de crawl

L’analyse de fichiers de logs peut vous montrer la dernière fois que Google a crawlé une page en particulier, que vous voulez indexer rapidement.

Budget de crawl

Comme nous l’avons mentionné précédemment, un budget de crawl est lié à l’autorité du domaine et est proportionnel au flux d’équité de liens à travers le site. Puisque Google ne veut pas perdre son temps à crawler des sites de pauvre qualité, vous allez avoir envie de vérifier l’activité des robots de Google en temps réel sur votre site afin de voir s’ils passent assez de temps sur votre contenu.

Nous fournissons dorénavant un analyseur de fichiers de logs SEO. Vous pouvez le télécharger en open source et entreprendre une analyse de logs gratuite (vous ne payez que vos frais d’hébergement). Ou vous pouvez y accéder en version hébergée en nous envoyant vos logs et nous vous donnerons un accès à notre plateforme OnCrawl Advanced.