[Tech & Tricks] Accélérer l’indexation de pages et augmenter les revenus en réduisant le gaspillage de crawl

8 février 2019 - 4  min de lecture - par Rebecca Berbel
Accueil > SEO Technique > [Tech & Tricks] Accélérer l’indexation de pages et augmenter les revenus en réduisant le gaspillage de crawl

Stock limité ? Actualités ? Informations urgentes dans une niche saturée ou concurrentielle ? Événements ? Il existe de nombreux cas où l’indexation rapide des pages est la clef. Alice Roussel, Customer Success Manager à Oncrawl, suggère d’analyser le gaspillage de crawl afin de découvrir s’il existe des actions SEO que vous pourriez mettre en place pour améliorer la vitesse à laquelle vos pages prioritaires sont crawlées.

Comment mesurer le gaspillage de crawl avec Oncrawl ?

Alice et nos utilisateurs travaillent main dans la main pour identifier les types de pages sur un site web donné qui pourraient être crawlées alors qu’elles ne devraient pas l’être, ou ne sont pas des pages prioritaires. Pour cela, vous aurez besoin d’avoir lancé un crawl incluant suffisamment de données de log.

Commencez avec la liste des pages qui ont reçu au moins une visite du googlebot au cours des 45 derniers jours :

Astuce Oncrawl : nul besoin de nous croire sur parole au sujet de la relation entre le comportement de crawl et les revenus. Vous pouvez le vérifier en utilisant l’ingestion de données liées aux revenus provenant d’autres sources. Par exemple et pour aller encore plus loin, vous pouvez ajouter les pages avec des stocks restants après la date limite de vente. Cela vous aidera à confirmer les hypothèses suivantes :

  • Est-ce que les pages avec des produits encore en stocks après la date limite sont moins souvent crawlées ?
  • Est-ce qu’elles sont crawlées pour la première fois, en moyenne, plus proche de la date limite que les pages qui vendent tous leurs produits ?

Selon les types de pages définies comme des pages avec du gaspillage de crawl, Alice a créé une segmentation personnalisée qui répartit les pages en 2 catégories :

  • Un budget de crawl efficace : des pages qui doivent être crawlées
  • Un gaspillage de crawl : des pages qui ne devraient pas être crawlées, ou moins souvent

Pour voir où le budget de crawl est dépensé, le graphique ‘Crawl behavior breakdown’ sur le tableau de bord ‘Crawl Behavior’ sous le ‘Crawl Monitoring’ est extrêmement utile :

Pour ce site, approximativement 90 % du budget de crawl est dédié aux pages qui ne sont pas prioritaires. La bonne nouvelle, c’est que 90 % du budget de crawl est donc à redistribuer.

Il est aussi possible d’analyser de plus près les types de pages qui génèrent du gaspillage de crawl en utilisant une segmentation personnalisée. Cette segmentation inclut différents types de pages qui sont crawlées mais ne devraient pas l’être. Par exemple, les types de pages suivantes pourraient être incluses :

  • Les pages dupliquées avec des URLs malformées générées par votre CMS
  • Les pages créées automatiquement mais non utilisées sur votre site
  • Les pages avec des paramètres ou des variables, dont les résultats de recherche du site
  • Les pages statiques, à faible valeur (les pages entreprises, termes et conditions…)

Une bonne solution pour observer comment le budget de crawl est distribué est d’utiliser la segmentation ‘Pages known by bot’ dans le tableau de bord ‘Bots behavior’ situé dans le rapport ‘SEO Impact’. Assurez-vous que vous voyez bien ce graphique avec les logs comme source et que vous avez choisi votre segmentation par groupe de gaspillage de crawl.

Ces graphiques “Unique pages crawled” et “Crawl frequency” montrent comment les bots interagissent avec les pages dans chaque groupe. Par exemple, vous devriez commencer par regarder les groupes de gaspillage avec de fortes fréquences ou les groupes efficaces (si vous les avez inclus dans votre segmentation) avec des fréquences faibles :

Astuce Oncrawl : à l’inverse de nos autres segmentations, ces catégories pourraient se chevaucher. Cela signifie que vos catégories pourraient avoir un large nombre de conflits : les pages peuvent être considérées comme faisant partie de plusieurs groupes. Tout va bien : nous utilisons cette segmentation pour voir quelles pages avec certaines caractéristiques sont crawlées, plutôt que comment elles performent en tant que partie du site. Par conséquent, les graphiques qui fournissent un pourcentage d’activité lié à l’ensemble du site pour un groupe devraient être escomptés lorsque vous utilisez cette segmentation.

Résultats

Lorsque vous êtes capables d’identifier où est situé votre budget de crawl, vous pouvez le rediriger pour améliorer vos taux de crawl et vos pages qui génèrent des revenues. Savoir quels types d’URLs reçoivent le plus d’attention de crawl vous aide à cibler les groupes avec le plus grand impact sur le crawl pour maximiser l’effet de vos actions.

Vous pouvez redistribuer le budget de crawl en utilisant des stratégies multiples, selon le type de page et vos objectifs. Voici quelques exemples de stratégies :

  • Modifier le maillage interne
  • Ajouter des propriétés noindex
  • Rediriger les pages
  • Utiliser des URLs canoniques

Alors que le comportement du crawl sur les pages non prioritaires décline, le budget est attribué à d’autres pages du site. Cela procure plus de bande passante et d’attention aux pages génératrices de revenus, ce qui les aide à être indexées et classées plus rapidement.

Rebecca Berbel Voir tous ses articles
Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.
Sujets en lien :