Les sitemaps XML : le couteau suisse du SEO technique

17 janvier 2019 - 7  min de lecture - par Rebecca Berbel
Accueil > SEO Technique > Les sitemaps XML : le couteau suisse du SEO technique

Un sitemap n’est pas seulement une liste de pages sur un site. En format XML. Un sitemap est aussi un outil de SEO technique multifonctionnel.

Voici quelques exemples de ce que vous pouvez accomplir avec un sitemap.

Qu’est-ce qu’un sitemap XML ?

Un sitemap XML est un fichier placé à la source d’un site web qui liste les pages utilisant le protocole sitemaps.org. Ce protocole lisible par les bots a été développé afin de fournir aux webmasters une technique standardisée pour lister les pages qui devraient être indexées par les moteurs de recherche. Celui-ci contient habituellement des données additionnelles sur chaque page.

Ces données additionnelles rendent le sitemap XML très pratique dans de nombreuses situations. Comme un couteau suisse, les sitemaps disposent d’outils pour régler de nombreux problèmes de SEO technique liés au crawl et à l’indexation.

Soumettre de nouvelles URLs à Google

L’usage principal du sitemap, et le plus évident, est la soumission d’URLs aux moteurs de recherche. Google permet de soumettre un nouveau sitemap lorsque vous avez ajouté de nouvelles URLs sur votre site web.

Soumettre de nouvelles URLs dans un sitemap est devenu la technique recommandée pour annoncer la présence de nouvelles pages à Google. Cela permet d’alerter Google des changements sur votre site “au-delà des horaires standard de Google”.

Cependant, même si Google est conscient de l’ajout de nouvelles pages lorsque vous soumettez un sitemap, cela ne signifie pas qu’il va forcément les crawler ou les indexer immédiatement.
Vous pouvez aussi utiliser cette méthode pour annoncer des changements dans les pages en utilisant la balise < lastmod >  dans votre sitemap afin d’indiquer la date de la mise à jour.

Atténuer les effets d’une importante profondeur de page

Le crawl se base sur les liens entre les pages. L’architecture de votre site est donc aussi importante pour les bots que pour les utilisateurs qui naviguent sur votre site afin de trouver des pages.

Les pages qui requièrent un grand nombre de clics depuis votre page d’accueil ou votre landing page afin d’être trouvées sont considérées comme très profondes. Cela peut avoir bien des conséquences :

  • La profondeur affecte les classements en faisant baisser le score de popularité utilisé dans l’algorithme PageRank ;
  • La profondeur influence le temps nécessaire avant qu’une page soit crawlée ;
  • La profondeur peut empêcher les utilisateurs de visiter les pages ou réduire la fréquence de visites des utilisateurs.

L’influence de la profondeur sur l’activité : plus une page est profonde dans la structure d’un site, moins elle recevra de visites organiques. (Source : Oncrawl).

 

Bien que les sitemaps ne puisent pas résoudre les problèmes de “jus de lien”, de popularité et de visites humaines, vous pouvez utiliser un sitemap pour fournir les URLs des pages qui sont profondément enfouies dans votre site aux bots.

Comme un couteau suisse, ils ne sont pas forcément le meilleur outil pour cette mission. Mais lorsque vous n’avez pas l’option de retravailler votre stratégie de maillage interne, utiliser des sitemaps est une manière rapide de vous assurer que le Googlebot pourra trouver, crawler et indexer vos URLs, même à une profondeur excessive.

Accélérer la désindexation de multiples URLs depuis Google

Habituellement, la manière la plus simple de retirer une page unique de l’index de Google est d’utiliser un outil de suppression d’URL. Cependant, cela peut être fastidieux si vous avez de nombreuses URLs à traiter.

Les sitemaps sont une très bonne technique pour informer Google de l’état de vos URLs. Vous pouvez aussi les utiliser pour indiquer quelles URLs devraient être désindexées.

Les pages que vous voulez retirer de l’index de Google devraient apparaître dans votre sitemap XML :

  • Comme “noindex”. Cela indique le changement dans le statut d’indexation que vous aimeriez que Google prenne en compte ;
  • Avec une balise < lastmod > indiquant la date du changement, comme recommandé par John Mueller.

Rechercher des pages orphelines

Les pages orphelines sont des pages qui ne sont plus liées à la structure principale de votre site. À cause de cela, leur performance SEO est limitée. De plus, lorsque des liens externes apportent du trafic à ces pages, le reste du site n’en profite pas. Ces pages devraient être retirées ou liées à d’autres pages dans votre structure.

La clef pour gérer des pages orphelines est de pouvoir les trouver. L’une des meilleures manières de chercher des pages orphelines est de comparer les URLs dans votre sitemap aux URLs trouvées lors du crawl de votre site. Lorsque vous autorisez la comparaison de crawl avec les sitemaps dans Oncrawl, toutes les informations à propos des pages orphelines dans les sitemaps sont incluses dans les résultats de crawl standards.

Les pages orphelines découvertes dans les sitemaps (Source : Oncrawl)

Gérer le contenu dupliqué

Une fois que vous avez identifié le contenu dupliqué, les deux meilleurs moyens pour le faire disparaître sont :

  • De différencier les contenus ;
  • D’utiliser des déclarations canoniques pour indiquer aux moteurs de recherche laquelle des pages parmi les deux dupliquées devrait être indexée.

Les URLs que vous voulez utiliser comme URLs canoniques peuvent être incluent dans vos sitemaps XML : les URLs dans les sitemaps sont considérées comme des suggestions pour les URLs canoniques. Lorsque Google a besoin de choisir une URL canonique pour un groupe d’URLs avec du contenu similaire, il va utiliser l’URL qui apparaît dans votre sitemap comme première candidate. Si Google ignore vos URLs canoniques, cela peut aussi être une méthode pour renforcer ces déclarations.

Le corollaire de cette astuce est que ce n’est pas forcément une bonne idée de placer des URLs non-canoniques dans un sitemap. En fait, Google le déconseille.

Établir du contenu international

Les sitemaps XML prennent en compte les déclarations hreflang.

Il existe de nombreuses raisons pour lesquelles vous pourriez préférer déclarer vos hreflangs dans des sitemaps plutôt qu’en tant que pages individuelles. Ce processus permet notamment de réduire le code sur des pages en le gardant en dehors des headers de pages ou en gérant un site qui évolue fréquemment.

Les meilleures pratiques pour des déclarations hreflang restent les mêmes :

  • Respecter les langues obligatoires et les codes région optionnels ;
  • Lister toutes les traductions d’une page, dont la page elle-même ;
  • Ne pas rediriger toutes les pages vers la page d’accueil ;
  • Utiliser le code x-default pour les pages qui permettent aux utilisateurs de choisir leur langue ou région.

Si vous utilisez des déclarations hreflang dans des sitemaps, évitez d’utiliser aussi des déclarations hreflang dans les headers ou le HTML de la page.

Exemple de déclarations hreflang dans des sitemaps (Source : Google)

 

Présenter du contenu à Google Images, Vidéos et News

Le contenu que vous aimeriez voir sélectionné par Google Images, Google Vidéos ou Google News peut être renseigné dans des sitemaps. Bien que cela ne vous aide pas à obtenir de meilleurs classements, vous vous assurez ainsi que votre contenu soit découvert rapidement.

Google recommande aussi d’utiliser le schema.org markup correspondant (ImageObject, VideoObject ou NewsArticle) sur la page, en plus d’inclure les images, vidéos et articles dans les sitemaps XML.

Google Images

Utiliser un sitemap image augmente vos chances de voir vos images indexées dans les résultats de Google Images.

Les sitemaps image listent les ressources image sur votre site web et peuvent contenir des informations additionnelles comme la légende, la géolocalisation, les titres et les informations de licence.

Exemple d’un markup image pour sitemaps (Source : Google)

 

Google Vidéos

Les sitemaps vidéo aident Google à trouver vos contenus vidéos et à fournir des informations additionnelles que les bots de Google ne peuvent lire en format vidéo. Ces informations additionnelles incluent du contenu comme la description, la légende, l’emplacement du lecteur, les notes, le nombre de vues, les restrictions locales, le prix…

Il s’agit d’un format spécifique à Google. Vous pouvez trouver toutes les informations à propos du format sitemap vidéo dans le centre d’aide de Google.

Exemple de données additionnelles pour des vidéos dans des sitemaps (Source : Google)

Google News

Pour utiliser des sitemaps Google News, votre site doit être accrédité par Google News.

Les sitemaps news suivent le protocole de sitemap standard et incluent des balises pour les URLs qui représentent des articles de news.

Vous pouvez trouver toutes les informations sur les format news dans le centre d’aide de Google.

Exemple d’un markup Google News pour sitemaps (Source : Google)

Optimiser pour de multiples moteurs de recherche

Enfin, les sitemaps XML sont supportés par de multiples moteurs de recherche, pas seulement par Google. Si vous disposez d’un nombre croissant de visiteurs provenant d’autres moteurs de recherche, utiliser des sitemaps XML va vous aider à optimiser les informations que vous fournissez aux autres moteurs de recherche à propos des pages de votre site.

Les sitemaps XML sont supportés par des moteurs de recherche majeurs comme Google, Yandex, Yahoo!, Bing et Baidu, entre autres.

Rebecca Berbel Voir tous ses articles
Rebecca travaille comme Product Marketing Manager chez Oncrawl. Elle est passionnée de NLP et de modèles informatiques de langage, ainsi que des systèmes de tout type et leur fonctionnement. Elle n'est jamais en manque de sujets techniques à partager, et elle croit dans l'importance de l'évangelisation des technologies et de l'utilisation des données pour mieux comprendre le référencement. Elle contribue régulièrement au blog Oncrawl.
Sujets en lien :