Titre de l'article: 

Semantique web Schema.org vers le web 3.0

sort_des: 

La sémantique web prend un virage sérieux : SEO gurus à vos carnets de note et direction Schema.org avec Google Yahoo et Bing

semantique web 3.0Il y a plus d’un an, je publiais une news concernant le référencement Web 3.0 web sémantique et SEO ici même sur mon site dédié au référencement à Montréal. Aujourd’hui, une information majeure réside dans l’adoption des moteurs Google, Yahoo! et Bing de la nouvelle norme décrite dans Schema.org.
Alors, nous allons décrypter ce processus qui a mon avis nous mènera tout droit vers un nouveau Web des données comme souhaité par  Tim Berners-Lee l’inventeur du web.

Historique

Bietim berner leen que le terme soit aujourd’hui remis à jour et annoncé comme étant le Web 3.0, le concept de web sémantique est présent depuis les origines du web. Le terme est utilisé depuis 1994 par Tim Berners Lee :

« The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in coopération ». Tim Berneers-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001.

L’objectif premier du balisage hypertextuel (depuis le SGML, au HTML, puis au XHTML en passant par le XML) a toujours été de structurer le contenu d’un document afin d’en marquer, d’en souligner ou d’en révéler le sens : un titre, un intertitre, un paragraphe, une citation ou un encart, une emphase mise sur un passage, une liste, un tableau de données, etc…Le (X)HTML définit de nombreuses balises. Chacune de ces balises est destinée à indiquer la nature du contenu qu'elle encadre. C'est ce qu'on appelle la sémantique XHTML.

RDF pour sa part est un modèle conceptuel permettant de décrire des choses, simplement et sans ambigüité. RDF est normalisé par le W3C. Ses applications visent initialement le web sémantique mais elles peuvent s'étendre plus largement à l'ingénierie des connaissances.

La notion de métadonnées utilisables par les machines fut proposée assez tôt dans l'histoire du Web, dès 1994 par son inventeur Tim Berners-Lee, lors de la conférence WWW 94 où fut annoncée la création du W3C. Ces métadonnées formelles sont alors présentées comme une nécessaire représentation utilisable par les machines de l'information contenue dans les documents, par exemple le fait qu'une personne X est employée par une organisation Y.

Le développement de cette idée aboutit à la publication en 1999 de la première version de RDF (Resource Description Framework), langage qui définit un cadre général pour la standardisation des métadonnées des ressources Web.linked data people schema.org

Sur la base de RDF se sont ensuite développés des vocabulaires spécifiques destinés à des applications particulières, comme FOAF destiné à décrire les relations entre personnes, puis des langages destinés à structurer ces vocabulaires, comme RDFS et le langage d'ontologie OWL, publiés dans leur forme finale en février 2004.

L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que les relations entre ces concepts. Elle est employée pour raisonner  à propos des objets du domaine concerné.

Plusieurs prototypes existent visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data.

En 2008 le web sémantique sortait progressivement de l’ombre. Le premier changement est la médiatisation du web sémantique autour de quelques produits et acteurs de référence. On retrouve Twine, Freebase, Powerset, Hakia, OpenCalais, DBPedia le projet DataPortability  ou encore l’API «Google Social Graph». Autre évolution majeure : les différentes briques technologiques du web sémantique arrivent à maturité. Équivalent des HTML et HTTP des débuts, les RDFs, SPARQL  et autres OWL, trouvent des terrains d’application de plus en plus nombreux. Le Web sémantique, de plus en plus appelé Web of data (Web de données) est passé de l'utopie à la réalité en étant inséré dans des outils de recherche d'informations tels que les moteurs web.

Google, s’est mis au web sémantique en structurant des données non structurées semble-t-il. Microsoft a pour sa part lancé son outil de recherche "Bing" qui consiste en une amélioration du moteur sémantique Powerset acquis en 2008 (techno-science, 2009). Yahoo a tenté une autre utilisation du web sémantique avec SearchMonkey.

Les moteurs de recherche améliorèrent leurs algorithmes dans l’optique de rendre inutiles les techniques d’optimisation illégitimes du référencement (SEO Black hat). Ainsi, Google propose de plus en plus des résultats personnalisés sur les SERPs. Les résultats sont réordonnés selon la langue, l’historique, la géolocalisation, les contacts réseaux  de l’utilisateur... En 2009, Google a mis en ligne SearchWiki en expérimentation. Ce projet consistait à ajouter un système de vote aux SERPs pour que les utilisateurs eux-mêmes puissent collaborer afin d’améliorer la pertinence des résultats de recherches. Aujourd’hui le bouton plusone devrait remplir ce rôle.

Les moteurs

Ce n’est pas la première fois que les trois majors se mettent d’accord sur une norme pour faciliter l’indexation. Les fichiers Robots.txt et les plans de site Sitemaps.org sont des cas de réussite que nous vivons quotidiennement dans nos techniques de référencement naturel. Gageons qu’ils ne s’arrêteront certainement pas aux premières propriétés disponibles à la page http://schema.org/docs/schemas.html. En effet, pour rappel, les plans de sites sont passés d’un simple listing d’URLs à une description de celles-ci avec en plus la possibilité de créer des sitemaps pour images, vidéos…

Les normes

Si les microformats ont fait partie du premier standard W3C applicable notamment pour faciliter l’accessibilité comme le permettent le Hcard et Hcalendar entre autres, RDFa est certainement le plus complet et le plus utilisé mais souvent jugé complexe par les utilisateurs. Le W3C planchait d’ailleurs sur une nouvelle norme appelée « Microdata » qui accompagne la version définitive du HTML5. Mais les moteurs ont décidé de lui emboîter le pas et de préconiser l’usage de Schema.org qui sans nul doute devient de fait le standard à l’heure actuelle.

Exemple

exemple microdata schema.org

En fait, l’utilisation est simple car il suffit de renseigner les balises mises à disposition. Le problème réside dans une vision globale de ce que l’on veut communiquer comme information aux moteurs.