[French] Préface, Web de données

Ma contribution à la préface de l’ebook Web de données, Méthodes et outils pour les données liées”.

Le web a révolutionné l’accès à l’information en permettant de publier, de consulter et de lier des documents au travers d’un réseau mondial : internet. L’un des éléments majeurs de ce succès a été la simplicité de lier des pages web afin de simplement naviguer entre des documents complémentaires. Une nouvelle ère de l’information et de la gestion des connaissances s’est alors mise en place. Très rapidement, l’avènement des Wikis, des forums, des blogs et des réseaux sociaux a permis aux utilisateurs de contribuer au contenu du Web et d’en devenir des ressources à part entière. L’évolution logique du Web a donc été de massivement créer des liens entre des personnes au point de bouleverser les modes de communication de nos sociétés. Dans la continuité de ce mouvement, de nouveaux types de ressources telles que des services et des objets ont désormais leur propre existence en ligne. Tout particulièrement, nous assistons à une publication massive de données sur le Web. Ces données, à l’usage d’agents logiciels, ont principalement pour buts (1) d’expliciter des ressources embarquées dans des pages web (ex : coordonnées, carte de visite, avis) et des métadonnées descriptives (ex : titre, auteur, genre, etc.), ou (2) tout simplement d’être à la disposition de services tiers qui pourront en proposer de nouveaux usages (ex : carte augmentée avec des données encyclopédiques issues de Wikipedia). Dans ce contexte, à l’instar des liens entre des pages web qui permettent à l’utilisateur de découvrir et de consulter de nouveaux documents, les liens entre les données permettent aux agents logiciels de découvrir, d’agréger et d’exploiter toujours plus de données.

Ainsi, l’un des nouveaux challenges du Web n’est plus lié à la contribution de ses utilisateurs humains, mais à la contribution d’agents logiciels qui le parcourent, en consomment et en valorisent les données. Ces agents sont mis en place par des services soucieux de proposer des agrégations et des mises en perspectives de données répondant aux besoins de leurs communautés d’utilisateurs. En particulier, l’exploitation et la mise en évidence des différentes connexions et chemins disponibles entre des données favorisent la découverte et la production de nouvelles informations et de nouvelles connaissances. Deux types d’acteurs sont amenés à collaborer pour relever ce challenge : les consommateurs et les producteurs de contenus. D’une part, de nombreux agents logiciels parcourent, analysent et indexent les données du Web, afin de fournir des services à valeur ajoutée, des informations augmentées et éventuellement de nouvelles données. D’autre part, intéressés par l’audience acheminée par certains services, tels que des moteurs de recherches ou des réseaux sociaux, les fournisseurs de contenus publient toujours plus de données exploitables par leurs agents logiciels sous la forme de dump de base de données, d’API ou d’annotations embarquées dans des pages HTML. Cette synergie entre la production et la consommation des données est de plus en plus renforcée par l’adoption croissante des formats et des protocoles standardisés du Web Sémantique qui favorisent la représentation et le partage de données. En particulier, nous assistons à une intégration massive d’annotations sémantiques dans les pages HTML depuis leur recommandation et leur exploitation par des géants du Web tels que Google ou Facebook.

Cette transformation fondamentale du Web étant désormais amorcée, nous assistons actuellement à une évolution majeure de la gestion des connaissances et de l’intelligence artificielle. Nous participons même chaque jour à cette évolution, la moindre de nos actions en ligne est productrice de données et est ainsi susceptible d’instruire un ou plusieurs agents logiciels.