Un fichier sitemap.xml est une liste des pages de votre site web que vous souhaitez voir indexer par les moteurs de recherche. Il doit être placé à la racine de votre site web (et non dans un dossier). En soumettant un sitemap aux moteurs de recherche, vous pouvez les informer des pages nouvelles ou modifiées. Les sitemaps sont essentiels pour les grands sites, pour soumettre de nouvelles pages à Google et pour les sites dont le contenu évolue fréquemment.
Les sitemaps XML utilisent un formatage standard pour fournir des informations optionnelles sur les URLs qu’ils contiennent, telles que les déclarations hreflang (langue et région), les dates de dernière modification et les fréquences de mise à jour pour chaque page. Des informations spécifiques supplémentaires peuvent être fournies pour les sitemaps contenant des news, des vidéos ou des images.
Quelles sont les pages à inclure dans un sitemap XML ?
Même lorsque vous générez des sitemaps de manière dynamique, il est difficile d’avoir une vue globale des URLs incluses dans un sitemap. C’est pourquoi OnCrawl vérifie les pages de votre sitemap par rapport à toutes les pages connues de votre site.
- Excluez les pages qui n’ont pas besoin d’être indexées par les moteurs de recherche. (Notez que cela ne les empêche pas d’accéder à ces pages ou de les indexer ! N’oubliez pas d’empêcher l’indexation à l’aide des attributs ou directives des méta-robots dans le fichier robots.txt.)
- Incluez toutes les pages que vous voulez que les utilisateurs trouvent : landing pages, news, produits, blog, et pages de catégories optimisées pour le SEO
Pourquoi utiliser un sitemap pour des analyses croisées avec des données de crawl ?
L’analyse croisée d’OnCrawl avec les URLs de votre sitemap exploite les données existantes du sitemap pour trouver des moyens d’améliorer votre référencement naturel.
- Découvrez les pages orphelines connues de Google grâce à un sitemap mais non liées à la structure de votre site
- Utilisez OnCrawl pour trouver les pages qui peuvent être découvertes par le crawl des bots sur votre site mais qui ne doivent pas être indexées