Technical SEO _ OnCrawl blog

Le balisage sémantique schema.org, une révolution programmée

11 février 2016 - 6  min de lecture - par Erlé Alberton
Accueil > SEO Technique > Le balisage sémantique schema.org, une révolution programmée

Depuis toujours le web subit de grandes mutations, certaines imposées par les moteurs d’autres, beaucoup plus subtiles, émergent naturellement grâce à la créativité de certaines communautés. Ainsi entre les années 90 et aujourd’hui nous sommes passés d’un internet réservé à quelques universitaires et chercheurs à une toile géante accessible au plus grand nombre, n’importe où et tout le temps. Notre web contient des milliards de documents tous plus différents les uns des autres. Google aurait plus de 30 000 milliards de pages indexées et traiterait plus de 3,3 milliards de requêtes par jour dont près de 15% sont de nouvelles requêtes.

Ce sont des ensembles très complexes à trier, les moteurs de recherche ont pourtant largement évolués dans leurs systèmes de traitement des crawls, les capacités d’indexation et dans la manière dont ils retransmettent l’information, passant de pages de résultats linéaires à des listes de réponses enrichies, donnant par la même occasion beaucoup plus d’informations autour des concepts liés à la requête. Ces données sont issues d’un nouveau domaine d’exploration des moteurs : les données sémantiques.
D’un point de vue algorithmique, c’est le prochain grand changement annoncé, à vous d’en tirer un maximum profit.

Imaginez le travail phénoménal des algorithmes de crawl et de classement. Comment comprendre le sens des documents, extraire les informations essentielles, filtrer le code source, séparer les informations du bruit HTML, comparer les documents pour les trier, les qualifier, les classer puis enfin les renvoyer en fonction de la demande d’un utilisateur – plus ou moins identifié – pour être certain d’apporter la meilleure des réponses possibles, dans le format le plus élégant !

À l’heure de la compréhension du langage naturel par des programmes de plus en plus intelligents, saisir le sens profond des pages et des requêtes est forcément important pour le business futur.
Le crawl et l’indexation se complexifient, il faut de “l’intelligence” pour être le meilleur – la concurrence est rude – et les géants du search se sont, un jour, retrouvés autour d’un sujet commun : le balisage sémantique !

Les prémices des structures de données

Les origines de cette thématique ont déjà été abordées dans un article sur le site d’abondance. Il est intéressant de rappeler que Tim Berners-Lee, avait déjà intégralement décrit la mutation sémantique des moteurs de recherches dès 1999.

Ce visionnaire rêvait d’une machine autonome, “intelligente”, formée à comprendre les relations entre les objets physiques et capable de répondre efficacement à une requête humaine grâce à une forme d’abstraction sémantique.

Dès sa création, le web s’est organisé autour de la description des documents et de leurs concepts au travers de propriétés et de relations qui les lient à d’autres documents. La norme RDFA – pour Ressource Description Framework on Attributes – à décrit un nouveau type de liaisons, beaucoup plus structurantes et subtiles que les ancres : les ontologies.

Respectant des règles strictes et typées, elles sont organisées comme des structures de données pouvant enrichir n’importe quel concept décrit dans un élément HTML au travers d’attributs et de liens avec des types connus.

Tout y est : concepts, attributs et types sont aujourd’hui les Scope, Prop et Type des items de schema.org.

Les spécifications ont évoluées – se sont simplifiées et unifiées mais les fondements sont restés les mêmes. Les liens entre les pages sont importants – il n’y a aucune remise en question de la puissance des liens internes ou externes – les concepts principaux de vos pages sont plus ou moins faciles à déterminer pour des machines, les moteurs ont besoin de gagner en efficacité, pourquoi ne pas s’inspirer du système des attributs pour recréer une syntaxe normée qui simplifiera l’analyse et le classement, puis la faire adopter par tous les développeurs ?

Le balisage sémantique est important pour les moteurs et ils font tout pour que nous l’adoptions massivement. Il y a eu “l’AuthorRank”, les “breadcrumb”, les “RichSnippets”, le KnowledgeGraph, les “Answer Box” ; avec schema.org et le HTML5 il y a maintenant la syntaxe pour décrire n’importe quelle entité physique avec une précision impressionnante.

Votre site web n’est pas balisé schema.org !

Il est vrai qu’entre une optimisation technique de fond et ce sujet quelque peu futuriste vous avez rapidement tranché. Suite à votre audit OnCrawl vous avez dû faire des choix pour améliorer la structure de votre site, réduire le contenu dupliqué, optimiser le maillage interne de vos pages ou la sémantique – la partie linguistique du terme – et vous avez eu raison, mais quelle est la prochaine étape ?

Donner du sens à votre contenu, profiter des affichages enrichis – cette belle optimisation qui a été créée pour vous faire adhérer à la technologie schema.org et qui aujourd’hui drive une grande partie des nouveautés des géants du Search.

Il suffit de regarder les dernières recommandations pour AMP (Accelerated Mobile Page) pour comprendre que Google nous attire vers l’adoption du balisage sémantique et de la syntaxe JSON-LD.

Profitez des avis clients pour afficher des petites étoiles sur les listes réponses est un minimum, baliser vos chemins de fer doit être une habitude, mais aujourd’hui vous pouvez aller plus loin.

Le balisage sémantique est prêt à être massivement utilisé, mais quels gains en retirer ?

Les affichages enrichis, pour se différencier de la concurrence, ne dureront qu’un temps. La beauté de l’art, chez beaucoup d’entres nous c’est une vraie motivation. Former les développeurs à une syntaxe qui devrait devenir la base des futures interactions entre machines – c’est déjà beaucoup plus attirant. Simplifier le travail des moteurs dans la compréhension de votre site. Parler le langage le plus adapté pour séduire un crawler ou un indexeur. Simplifier au maximum vos données, créer des liaisons sémantiques fortes entre vos pages..

Une voiture, par exemple, https://schema.org/Car à des propriétés comme sa longueur, sa largeur, son angle de braquage, sa couleur, le nombre de places à l’arrière, le volume de son coffre. Mais elle est aussi composée d’un moteur https://schema.org/EngineSpecification qui est une entité à part entière avec son propre schéma, ses propres propriétés ; elle est vendue par un https://schema.org/AutoDealer qui, en tant https://schema.org/LocalBusiness à des heures d’ouverture, une adresse physique, et beaucoup d’autres données liées à son type et pourtant tout à fait descriptibles au travers du vocabulaire schema.org.

Les possibilités sont illimités, misent à jour collectivement grâce à la communauté Open Source : https://github.com/schemaorg/schemaorg

Ne passez plus à côté de cette optimisation qui améliorera votre contenu et la qualité de votre site.

Content is King, Linking is the Kingdom, Technical is the Throne

Erlé, ancien responsable SEO chez Orange, est maintenant Customer Success Manager pour OnCrawl. Il a développé ses compétences Front/Back pendant 10 ans et a fait du schema.org sa spécialité.
Sujets en lien :