Le crawl fait partie des outils essentiels dans la boîte à outils SEO. La plupart des sites ont besoin d’être crawlés (par Google) pour être indexés, classés et cliqués. Il est donc indispensable de crawler votre site (avec un crawler SEO) et de s’assurer que les résultats sont corrects pour construire une stratégie SEO. C’est aussi la meilleure manière d’assurer le monitoring de votre site, suivre l’activité, analyser son état actuel ou pour mesurer les améliorations.
Un crawl consiste en l’analyse d’un groupe de pages par un robot. Il peut s’agir d’une liste limitée de pages mais généralement, un crawl débute sur une page ou des pages spécifiques et utilise le robot pour lire la page et découvrir tous les liens sur ces pages. Le robot visite ensuite toutes les pages liées qui n’ont pas été déjà visitées et découvrent à nouveau des liens sur ces pages. Cette procédure se répète encore et encore jusqu’à ce que le robot ne trouve plus de liens qu’il ne connaît pas déjà.
Pendant ce voyage, le robot enregistre et rapporte les informations qu’il trouve comme le statut de la page rapporté par le serveur lorsqu’il demande une page spécifique, le temps nécessaire pour que le robot récupère toutes les informations d’une page…
Les robots peuvent aussi tirer des informations provenant des pages elles-mêmes : titres de page, méta informations, nombre de mots, données structurées…
Cela signifie que les robots ont besoin d’être capable d’accéder à une page et de la lire pour identifier les liens. La plupart des limitations de crawls proviennent d’éléments ou de conditions qui empêchent l’une de ces étapes de se produire.
À l’inverse du googlebot, vous pouvez paramétrer beaucoup des paramètres du comportement d’un robot SEO. Cela va déterminer la manière dont le crawl se déroule et quelles pages le robot peut découvrir.
Un exemple très évident est la limite de crawl via un nombre maximum d’URLs. Si ce paramètre est configuré et que le nombre est trop faible pour votre site, le robot ne pourra pas crawler toutes vos pages, mais pas pour une raison technique !
Comment réparer cette erreur : modifiez vos paramètres de crawl !
Les sites qui ne jouent pas le jeu avec les robots ont souvent des problèmes avec les crawls.
Cela inclut les sites qui refusent l’accès aux robots. Ces sites peuvent avoir des raisons légitimes pour exclure les robots :
Mais le problème avec les exclusions générales de robots c’est que vous ne pouvez pas crawler votre site à la main. La nature des audits requiert que le site soit accessible par les robots.
Même si un site n’a pas décidé que tous les robots sont des mauvais robots, il peut toujours leur mettre des bâtons dans les roues. Il peut par exemple traiter certains robots différemment par rapport à d’autres ou aux visiteurs humains. Cela peut inclure les comportements suivants :
Lorsque le robot de crawl est traité différemment que le googlebot, les résultats de crawl montrent l’analyse d’un site qui n’est pas celui que Google voit. Ainsi, les réels problèmes rencontrés par les googlebots peuvent restés non détectés.
De même, lorsque les robots ne sont pas traités comme les utilisateurs, le site qui est analysé n’est pas le même que celui que les utilisateurs voient. Il ne peut donc pas être utilisé pour révéler des problèmes d’expérience utilisateur.
Comment réparer cette erreur : assurez-vous que vous comprenez pourquoi vous crawlez votre site. Est-ce que vous voulez comprendre comment les utilisateurs perçoivent le site ? Comment Google le voit ? Obtenir une liste de pages et leurs caractéristiques, indépendamment des visiteurs ? Cela va déterminer le type d’autorisations dont le robot de crawl aura besoin.
Puis, échangez avec l’équipe de développement web ou avec votre fournisseur de service web pour établir le bon compromis entre les paramètres de robot disponibles dans votre crawler et les autorisations possibles sur votre site et ses pages.
Lorsque vous utilisez OnCrawl pour crawler votre site, vous pouvez prendre des mesures parmi les suivantes :
L’historique des relations entre robots et JavaScript est pour le moins tendu, à cause des problèmes liés au fait de produire du contenu sur une page pour le visiteur qui le demande, ou en d’autres termes rendre une page. Jusqu’à présent, seulement quelques robots étaient capables de rendre les pages qui utilisaient le JavaScript. Bien que ce ne soit plus le cas, tous les crawlers ne peuvent pas rendre tous les types de JavaScript, et les crawls JavaScript sont toujours plus “chers” (comprenez : ils requièrent des technologies plus complexes et sont plus lents) que les crawls standards.
Comme le JavaScript est utilisé pour insérer et étendre toutes sortes de contenu, dont les informations du header (comme les canoniques et hreflang), les liens et contenus textuels, les robots doivent avoir accès aux versions finales des pages. Lorsque ce n’est pas le cas, les informations de chaque page ou de l’intégralité du site web dans un crawl seront incomplètes si JavaScript a été utilisé pour insérer des liens.
Comment réparer cette erreur : comprenez comment le JavaScript est utilisé sur votre site web et déterminez si les robots ont besoin ou non de comprendre le site. Si avez besoin de crawler en JavaScript, déterminez si votre site peut être pré-rendu ou si le crawler doit faire tout le rendu lui-même. (Le robot OnCrawl en est capable ! N’oubliez pas d’autoriser cette option dans les paramètres de crawl). Si vous êtes à la recherche d’un bon crawler, assurez-vous d’en choisir un avec un robot qui supporte les crawls de sites avec des specs techniques comme les vôtres.
Un crawl fournit simplement des informations à propos des pages qu’il crawle. Il n’a aucune connaissance des pages en dehors du champ du crawl. Cela peut paraître évident mais engendre également des conséquences qu’il est facile d’oublier :
Lorsque les éléments clés de votre analyse ou de votre stratégie SEO tombent en dehors des frontières du crawl, cela peut fausser les résultats. Par exemple des pages orphelines très performantes, des backlinks, hreflang ou canoniques pointant vers d’autres (sous) domaines, des campagnes off-site ou payantes, ou la qualité relative de votre site par rapport à d’autres sites similaires peuvent être oubliés.
Étendre les frontières de crawl pour inclure un sous-domaine.
Comment réparer cette erreur : beaucoup des problèmes liés à la part d’inconnu au-delà de vos frontières de crawl peuvent être résolus. Rappelez-vous qu’un élément qui n’est pas présent dans vos résultats de crawl peut tout de même exister. Cela signifierait juste qu’il n’a pas été crawlé. Lorsque vous êtes conscients du type de pages que vous pourriez avoir exclu de votre crawl, vous pourrez mieux juger si cela avait ou non de l’influence sur vos résultats.
Plus concrètement, OnCrawl fournit des options pour vous aider à étendre les frontières de votre crawl. Par exemple, vous pouvez crawler les sous-domaines ou utiliser différentes start URLs sur différents domaines. Vous pouvez aussi utiliser des données tierces pour inclure des informations à propos des pages au-delà du périmètre de crawl. Pour en citer quelques-uns :
Pages orphelines découvertes en utilisant différentes sources
Un crawl décrit votre site et comment un robot ou un utilisateur vont voir ses pages, en commençant par le point d’entrée que vous avez défini comme votre start URL. Cependant, un crawler SEO ne dispose pas de l’intention de recherche, des résultats de recherche ou des structures de prise de décision dont le visiteur humain dispose. À l’inverse, l’utilisateur n’a pas pleine conscience de la planification de crawl, des facteurs de classement, du machine learning et des connaissances sur le fonctionnement d’internet, que les moteurs de recherche ont.
Un crawl ne peut pas fournir des informations sur comment et quand les robots des moteurs de recherche ou utilisateurs consomment votre site. Ce type d’informations, qui sont indispensables pour comprendre comment un site performe, prennent en compte :
Le résultat mène souvent à une analyse inutile. Un crawl fournit des informations complètes sur votre site, mais aucun moyen de lier cette information à comment votre site vit et respire selon vos clients, les SERPs et le reste d’internet.
Comment réparer cette erreur : utilisez plus de données !
Les données basiques du crawl pour chaque URL connue d’un site web peuvent être associées avec n’importe quel type de données ou l’ensemble de ces données pour faire du crawl un outil extrêmement puissant pour comprendre et gérer la performance web :
Effet de la profondeur (distance depuis la page d’accueil en nombre de clics) sur les classements : plus une page est proche de la page d’accueil, plus elle a de chances de se classer.
Le crawl est un outil essentiel dans la boîte à outils SEO mais lorsqu’il est pris tout seul, ce n’est pas non plus la panacée SEO ! Comme vu précédemment, beaucoup des lacunes d’un crawl peuvent être éliminées ou nuancées grâce à deux stratégies majeures :
Une fois que vous aurez surpassé les limitations qui empêchent vos résultats de crawl d’être complètement fiables, vous trouverez de nombreuses informations pour conduire votre stratégie SEO.