Le Data Scraping, ou “l’art” de récupérer des éléments liés à votre analyse dans le code source d’une page, peut s’avérer être une arme puissante dans votre lutte quotidienne pour la qualité de votre site. Rien que ça.

OnCrawl vous permet de le faire automatiquement lors de vos crawls. Dans cet article, nous allons analyser quelques exemples de problèmes ou situations pour lesquels le scraping peut accompagner votre SEO.

Surveillance de la non-régression

Il est bien connu que les régressions non sollicitées font partie des bêtes noires qui compliquent votre travail au quotidien.

Il peut s’agir d’un changement de wording, d’une modification de template, de maillage… Tout autant de risques de changements non maîtrisés qui peuvent au final impacter votre SEO.

Consulter ses données de trafic et constater que ce dernier a baissé suite à la perte des Rich Snippets (impact direct sur le CTR) n’est pas ce qu’un SEO apprécie le plus. Puis découvrir que cela aurait pu être détecté rapidement avec des crawls de non-régression peut être encore moins apprécié.

Et c’est là que quelques règles de scraping bien pensées, couplées à un crawl régulier de votre site, peuvent devenir vos meilleures alliées en facilitant la détection de changements non sollicités.

À l’inverse, vous pouvez également utiliser des règles de scraping pour identifier des éléments qui devraient être absents ou au contraire qui ont été récemment ajoutés à votre code source ou au contenu. Ceci vous permettra donc de vérifier que vos dernières modifications ont bien été propagées à l’intégralité du site.

Visualiser la pertinence de sa stratégie SEO

Les analyses croisées d’OnCrawl vous permettent, entre autre, de visualiser l’éventuel impact d’éléments que vous pouvez scraper sur votre SEO.

Vous pourriez par exemple vous assurer que votre stratégie visant à augmenter le nombre de commentaires sur vos fiches produits a eu un impact sur le trafic et/ou le positionnement de ces dernières.

Sur le même principe, en scrapant les prix de vos fiches produits et d’autres éléments (comme les notes par exemple), vous pourriez envisager de réorienter votre stratégie SEO en donnant un boost aux produits qui plaisent à la fois à vos acheteurs (donc avec une note élevée) et correspondent au panier moyen de votre site.

D’autres principes de ce type peuvent s’appliquer à tous les genres de sites, comme par exemple un travail fait sur les dates de publication d’articles, leurs auteurs, …

Sur la même logique, l’application de règles de scraping, croisées avec une segmentation basée sur les données ainsi récupérées, vous permettrait de monitorer l’impact, positif ou non, de chaque chantier pouvant être identifié via le contenu/le code source. Vous comprendrez ainsi si vous êtes ou non sur la bonne voie.

Vérification du contenu

Votre site a atteint une taille rendant compliquée la relecture de tout votre contenu. Plusieurs rédacteurs peuvent maintenant produire des articles, des vendeurs externes peuvent alimenter votre marketplace… Il existe différents scénarios impliquant d’automatiser certains contrôles.

Le scraping ne permet pas seulement de récupérer du contenu. Avec OnCrawl, vous pouvez également vérifier la présence d’éléments, les compter, vérifier leur longueur…

Grâce à cela, vous pourriez vérifier que la description d’un produit a bien été rédigée, qu’un article contient bien au minimum le nombre de mots vous avez spécifié, que chaque post sur votre blog contient bien au moins un lien vers une catégorie donnée de votre site, etc.

Surveiller son infrastructure Web

Dans le cas d’une infrastructure web basée, par exemple, sur du Load Balancing, il n’est pas toujours simple de vérifier que tous les serveurs de la ferme délivrent complètement le même code, voire même répondent de la même manière.

Avec l’ajout d’un élément dans le code source qui permet d’identifier le serveur qui a rendu le HTML d’une page, puis en scrapant cet élément, il est donc facile de déterminer si un ou plusieurs maillons de la chaîne ne sont pas à jour voire même sont défaillants.

Intégrer une balise meta ou tout simplement un commentaire HTML, faciliterait la détection d’un serveur répondant constamment avec des erreurs 404.
Ce genre de phénomène n’est malheureusement pas rare et peut amener des soucis comme la découverte par les bots de pages faussement en erreur voire même parfois la “non réponse” du fichier robots.txt.
Ce dernier cas a déjà été à l’origine d’un crawl massif de pages qui n’auraient pas dues être découvertes.

Dans la même logique, vous pouvez vous assurer que vos pages sont bien servies par votre cache en ajoutant là encore une meta ou un commentaire à récupérer lors du crawl.
Cela pourrait vous permettre de comprendre d’éventuels temps de chargement trop élevés jusqu’ici inexpliqués.

Pourquoi scraper : la version courte

En résumé, la possibilité de scraper du contenu/code source lors de vos crawls n’est pas à négliger dans la mesure où elle peut vous apporter un grand nombre d’informations complémentaires sur votre site, son activité et son état.
N’hésitez pas à consulter l’aide d’OnCrawl pour constater avec quelle facilité vous pouvez l’appliquer à vos crawl et amener vos analyses encore plus loin.

Vous n’êtes pas encore utilisateur OnCrawl ? C’est le moment idéal pour commencer votre essai gratuit !