Les fichiers de log de serveur sont en quelque sorte la « boîte noire » d’un site web. Ils enregistrent toutes les actions qui se produisent sur le site.
Ils contiennent des informations sur les personnes qui ont visité votre site, les pages qu’elles ont consultées, la durée de leur visite et même les erreurs qu’elles ont rencontrées. Ces fichiers contiennent des informations telles que l’adresse IP du client, le type d’appareil ou de navigateur qu’il utilise, et bien d’autres choses encore.
Le client peut être un utilisateur, un robot de moteur de recherche ou encore des scrapers hébergés de manière privée. C’est la partie relative aux robots des moteurs de recherche qui nous intéresse le plus, car elle permet de savoir comment les moteurs de recherche parcourent votre site web.
Le crawl est la façon dont les moteurs de recherche comme Google visitent et comprennent le contenu de votre site web. Si les moteurs de recherche ont du mal à crawler votre site, cela peut entraîner des problèmes dans les phases de traitement (indexation) et de positionnement.
Cela est d’autant plus vrai lorsque vous faites des modifications importantes sur votre site web, telles qu’une restructuration de l’URL, des changements au niveau des liens internes ou une migration du domaine ou du sous-domaine/sous-dossier.
En analysant les fichiers logs en temps réel, vous pouvez rapidement identifier tout problème concernant les erreurs de crawl, les inefficacités ou les points de blocage, et procéder rapidement à des ajustements. Voyons comment l’analyse des fichiers logs peut s’avérer utile dans le secteur du SEO.
Les bases des fichiers de log
Les fichiers de log sont des fichiers texte qui enregistrent automatiquement les événements et les transactions qui se produisent sur un serveur web.
Il s’agit en quelque sorte d’un journal détaillé de votre site web, dans lequel sont consignées toutes les visites et toutes les actions effectuées.
Ces logs sont stockés sur le serveur où est hébergé votre site web et fournissent des informations précieuses sur la manière dont les humains et les robots des moteurs de recherche interagissent avec votre site.
[Étude de cas] Améliorer les classements, visites organiques et ventes avec l’analyse des fichiers de log
Voici un bref aperçu des principales informations que vous pouvez trouver dans un fichier de log :
- Adresse IP : il s’agit de l’adresse unique de l’ordinateur ou du serveur qui envoie une requête à votre site web. Si Google explore votre site, vous verrez ici l’adresse IP de Google.
- Agent utilisateur : il indique le type de navigateur ou de service qui accède à votre site web. Par exemple, il peut s’agir de Chrome pour un utilisateur humain ou de Googlebot pour le moteur de recherche de Google.
- Horodatage : il s’agit de la date et de l’heure exactes auxquelles la visite ou l’action a eu lieu. C’est comme l’horodatage d’un ticket de caisse, qui indique la date à laquelle l’action a eu lieu.
- URL demandée : il s’agit de la page ou de la ressource spécifique demandée. Par exemple, si quelqu’un a visité votre page d’accueil, vous pourriez voir quelque chose comme « /index.html » ici.
- Status Codes HTTP : Il s’agit de codes à trois chiffres qui indiquent le résultat de la requête. Par exemple, un « 200 » signifie que tout va bien et que la page s’est chargée correctement. Un « 404 » signifie que la page n’a pas été trouvée et un « 500 » indique une erreur du serveur.
- Référent : il indique la provenance du visiteur. S’il a cliqué sur un lien d’un autre site web pour arriver sur le vôtre, vous verrez ici l’URL de ce site.
- Octets transférés : il s’agit de la taille du fichier envoyé en réponse à une demande. Il vous aide à comprendre la quantité de données que votre serveur transmet.
La plupart du temps, lorsque vous demandez ces données à un client (ou à un développeur), elles sont nettoyées pour n’inclure que des agents utilisateurs spécifiques tels que Googlebot et Bingbot. Ceci afin d’éviter le transfert ou la manipulation inutile d’informations d’identification personnelle de l’utilisateur.
Le nettoyage des fichiers logs pour n’inclure que les agents utilisateurs (en particulier les robots des moteurs de recherche) réduit la taille des fichiers et vous permet d’analyser un ensemble de données propres.
Analyse régulière des fichiers de log
L’examen régulier des fichiers de log de votre serveur peut fournir des informations précieuses sur votre site web et sur la manière dont Google (et d’autres moteurs de recherche) l’explorent. C’est particulièrement important si vous gérez un site web d’entreprise de grande taille ou un site web dont les URL changent fréquemment, comme dans le cas d’un site e- commerce.
Identification continue des problèmes
L’analyse des fichiers de log n’est pas une solution miracle, mais une analyse permanente ou de routine des fichiers de log peut contribuer à améliorer l’efficacité du crawl, en particulier sur les sites web de grande taille ou d’entreprise. Au cours de cette analyse, il y a une poignée de mesures importantes à surveiller.
Prises isolément, elles ne sont pas prioritaires, mais si vous remarquez qu’elles ont tendance à augmenter ou qu’elles affectent des URL qui ne devraient pas l’être, vous êtes en présence d’un problème en cours de développement.
Erreurs 404
Lorsqu’une page est introuvable, une « erreur 404 » est enregistrée dans le fichier journal du serveur. Cette erreur vous signale qu’une page a été supprimée ou qu’un lien est rompu. Ces erreurs peuvent empêcher les moteurs de recherche d’explorer efficacement votre site, ce qui affecte vos performances en matière de référencement.
Erreurs serveur
Des codes tels que « 500 » ou « 503 » indiquent des problèmes de serveur qui peuvent empêcher les moteurs de recherche d’accéder à votre site. Ces problèmes nécessitent une attention immédiate car ils peuvent entraîner la désindexation de certaines pages, voire de l’ensemble du site (en fonction de l’ampleur du problème).
Redirections inutiles
Les redirections multiples (par exemple, de « http » à « https » vers une version « www » du site) peuvent ralentir le crawl. Vous pouvez repérer ces redirections dans vos fichiers de log et rationaliser le processus, afin d’aider les moteurs de recherche à explorer plus efficacement.
Analyse des fichiers de log après des modifications majeures du site web
Le changement de domaine de votre site web ou les modifications importantes de l’architecture de l’URL sont souvent une étape nécessaire à la croissance de votre entreprise et à la création d’une nouvelle image de marque. Cependant, ces changements s’accompagnent de risques potentiels qui peuvent avoir un impact sur le référencement et l’expérience de l’utilisateur.
L’analyse des fichiers de log après la migration peut aider à identifier les redirections manquées, mal configurées ou cassées, ou à déterminer si Google perd du temps à explorer les anciennes URL et redirections au lieu de donner la priorité aux URL des pages les plus performantes de la version la plus récente du site web.
Liens cassés et redirections mal configurées
Lorsque vous déplacez votre site web ou modifiez la structure de l’URL, les liens qui pointaient vers votre ancienne adresse peuvent se rompre, entraînant des erreurs 404. Cela perturbe non seulement l’expérience de l’utilisateur, mais peut également avoir un impact sur le temps nécessaire à Google pour traiter vos changements d’URL.
Si les redirections ne sont pas configurées correctement, vous risquez de créer des boucles infinies ou de diriger les utilisateurs vers les mauvaises pages, ce qui détériore encore davantage l’expérience utilisateur et l’efficacité du crawl.
Concentration sur la zone de crawl
Après la migration, vous devrez surveiller de plus près les fichiers de log de votre serveur pour comprendre comment les moteurs de recherche interagissent avec la nouvelle architecture de votre site.
Ces derniers peuvent révéler quelles sections ou URL de votre site web sont explorées plus ou moins fréquemment. Par exemple, si vous constatez que les articles de votre blog sont fréquemment explorés, mais pas les pages de vos produits, vous devrez peut-être en rechercher la raison.
En examinant les adresses IP et les agents utilisateurs dans vos fichiers de log, vous pouvez déterminer la fréquence à laquelle les robots des moteurs de recherche parcourent votre site. Une fréquence d’exploration élevée est généralement un bon signe, mais peut devenir problématique si les ressources de votre serveur sont limitées.
Après une migration ou un changement majeur d’URL, les robots des moteurs de recherche peuvent finir par gaspiller leur budget d’exploration sur des pages inexistantes ou de moindre importance. Les pages les plus importantes risquent alors d’être explorées et indexées moins fréquemment, ce qui a un impact négatif sur la visibilité de votre site dans les résultats de recherche.
Les outils d’analyse des fichiers logs
L’analyse des fichiers logs s’avère parfois laborieuse, mais il existe des outils qui facilitent le processus. Selon votre niveau d’implication dans le SEO de votre site, des outils différents peuvent être plus utiles que d’autres.
Dans le cas où vous êtes un SEO technique ou que vous travaillez avec un site web qui agrège beaucoup d’informations – un site e-commerce par exemple – vous êtes probablement à la recherche d’une analyse en profondeur de vos fichiers logs. Dans ce cas, Oncrawl pourrait être une solution utile.
L’analyseur de logs d’Oncrawl traite des centaines de millions de logs par jour pour fournir des informations indiquant comment, quand et où les robots des moteurs de recherche et les visiteurs interagissent avec votre site. Cela vous aide à identifier la vitesse et la fréquence à laquelle votre site répond aux requêtes, les problèmes éventuels et la manière de les résoudre.
Oncrawl Analyseur de logs
En revanche, si vous travaillez dans le domaine de l’informatique ou dans un service technique, votre travail peut être davantage axé sur le débogage. Dans ce cas, un outil comme Splunk, qui intègre les données des logs et de la machine data dans leur analyse, pourrait s’avérer utile.
De même, les besoins d’une personne travaillant dans le domaine de la sécurité des sites seront également différents. Avec la menace des cyberattaques, certains sites ont besoin d’outils d’analyse de logs spécialisés qui peuvent être intégrés à d’autres outils de sécurité. Par exemple, un outil comme Gray Logs peut être utilisé à la fois pour l’analyse des logs de sécurité en temps réel, et pour l’analyse forensique des données de logs après une cyberattaque.
Cette liste est loin d’être exhaustive, mais il est important de trouver l’analyseur de logs qui correspond le mieux à vos besoins.
Conclusion
Le monitoring des logs existe depuis un certain temps et, à mesure que les moteurs de recherche deviennent de plus en plus sophistiqués, votre processus d’analyse doit lui aussi évoluer.
L’optimisation de la visibilité et de la performance de votre site Web nécessite des techniques plus avancées que jamais et l’analyse des fichiers logs en temps réel est apparue comme un élément crucial dans ce paysage en évolution.
Maintenant, avec l’utilisation croissante du machine learning et de l’IA, ces choses auront-elles un impact encore plus important sur la façon dont les données sont analysées ? Ou les futures mesures de protection des données entraîneront-elles certaines conséquences sur la façon dont les moteurs de recherche crawlent votre site et sur les informations qu’ils peuvent collecter ? Seul l’avenir nous le dira, mais soyez assurés que nous aurons toujours des logs.