Pratiques de l’édition numérique , Collection Parcours numériques

Chapitre 10

L’organisation des métadonnées

Grégory Fabre
Sophie Marcotte
Version augmentée au : 5 mars 2014

Nous avons déjà insisté sur l’importance des métadonnées. Nous pouvons affirmer que se joue là un des enjeux fondamentaux de la structuration des contenus. Selon notre façon de baliser les informations, nous les rendons accessibles, visibles et exploitables, mais nous construisons aussi une taxinomie du monde. Les métadonnées constituent un outil technique destiné à rendre compte de notre vision du monde et de la structuration de l’ensemble de nos connaissances. C’est parce qu’elle a produit une taxinomie précise et vaste que l’œuvre d’Aristote a autant marqué notre culture occidentale. L’enjeu est donc très important aujourd’hui, lorsque cette taxinomie est destinée à être reprise et généralisée dans tous les domaines de la connaissance — de la description des relations entre individus, décrite par les métadonnées d’un réseau social comme Facebook, à la hiérarchisation des informations bibliographiques du Dublin Core. Ce chapitre illustre, de manière très pratique, les principales caractéristiques des métadonnées et les fonctionnalités automatiques qu’elles permettent.

Mise en place d’une ontologie

Les technologies actuelles permettent de plus en plus aux chercheurs d’archiver, de diffuser et d’échanger aisément sur l’évolution de leurs recherches. Cela répond d’ailleurs à une nouvelle réalité dans le milieu de la recherche : celle de la création d’outils de diffusion mieux adaptés au transfert et à la circulation des connaissances. Pour ce faire, il importe de concevoir des outils et d’élaborer des pratiques et des protocoles communs.

La diffusion sur support numérique de textes ou de résultats de recherche fragmentaires ou achevés implique un processus dont la complexité devient parfois un obstacle difficile à surmonter pour les chercheurs habitués à publier leurs travaux en passant par les supports imprimés traditionnels (livres, revues, journaux, etc.). Le web n’est pas encore, en effet, le média de publication le plus employé pour la publication d’articles savants, d’édition critiques ou de textes de fiction, si bien que la plupart des protocoles restent à être définis et, surtout, à être apprivoisés par les chercheurs. Or il faut s’interroger sur la manière de faire évoluer les pratiques sans réduire la portée des contenus, sur la manière de changer les processus sans travestir les résultats, tout en insistant sur la valeur ajoutée des différentes pratiques inhérentes à l’édition et à la publication numériques.

Si l’un des objectifs du web 2.0 a été de simplifier un usage parfois complexe d’Internet, en se souciant notamment de l’ergonomie des interfaces et en plaçant l’utilisateur (non spécialiste) au cœur des enjeux — l’utilisateur partage, contribue, commente —, les visées du web 3.0 (ou web sémantique [réf1]) sont autres. Il s’agit désormais de penser le web en termes de structuration et de programmation des métadonnées. Pour le dire autrement, il y a passage d’une version du web horizontale, où la catégorisation est mise à plat (par exemple, le hashtag [déf1]), à une version hiérarchisée et informée, où le relief de la structuration met en évidence auprès des autres systèmes sémantiques la nature du contenu diffusé.

Dans ce contexte, les modalités de recherche deviennent également un enjeu crucial. Le SEO (Search Engine Optimization, optimisation pour les moteurs de recherche) a longtemps été l’apanage des compagnies privées qui promettent à leurs clients un meilleur positionnement au sein des moteurs de recherche les plus populaires et performants. Face à la pléthore de sites indexés chaque jour par ces derniers, il convient d’adopter des stratégies visant à ne pas voir son site noyé dans un océan de références, surtout lorsqu’il s’agit d’initiatives de recherche ou à visée éducationnelle. Dès lors, la métacatégorisation du contenu — le fait, autrement dit, de rendre intelligibles les contenus publiés sur son site — est à la base des très nombreuses stratégies possibles pour ne pas pâtir des crawlers [déf2] de Google, Yahoo ! et consorts programmés pour indexer (donc, classer).

Rendre une donnée intelligible, partageable et catégorisable nécessite une conception et un regard communs sur l’objet à qualifier. En d’autres termes, le systématisme imposé par la machine n’est pas toujours évident à faire cohabiter avec la réalité d’une recherche en cours. En effet, la catégorisation implique une compréhension globale et préalable du sujet étudié. Comment parvenir à un consensus permettant l’élaboration d’un système dans un contexte aussi mouvant ?

Le choix des outils occupe à cet égard une place prépondérante. Ces derniers doivent permettre la flexibilité imposée par l’évolution constante des recherches. En effet, les catégories dans lesquelles les contenus sont « classés » doivent être redéfinies régulièrement. Ainsi, l’environnement de publication en ligne (tel Drupal, qui sera évoqué dans les pages qui suivent) aura nécessairement besoin d’être pourvu d’outils appropriés pour faire face à cette mouvance des contenus inhérente à la recherche. En ce sens, le module Taxonomy Manager est une interface très performante pour la gestion d’ontologies [vidéo1]. Il permet entre autres l’ajout de nouveaux termes, mais également la fusion de plusieurs termes, ainsi que le déplacement d’un terme au sein d’une autre catégorie (« vocabulaire »).

Une ontologie informatique [réf2] est un ensemble de termes et concepts réunis pour décrire un domaine ou un objet d’étude. Structurée sous une forme hiérarchisée (parent/enfant ou vocabulaire/terme), son utilisation permet d’informer, par des métadonnées, le contenu diffusé et de renseigner sur la nature des différents champs composant un site web. Une telle structuration s’explique à la fois par la volonté d’établir une interrelation féconde entre deux systèmes (par exemple, un site et un moteur de recherche de type Google), mais permet également d’élaborer une circulation de l’information efficace au sein d’un seul et même système. Des relations croisées entre différents vocabulaires ou termes d’une ontologie peuvent ainsi être envisagées afin d’approfondir une requête au sein d’un environnement de recherche propre à un système.

Les formats sémantiques

Différents formats et langages de description des données permettent d’organiser et de partager efficacement de l’information dans l’environnement du web. Parmi ceux-ci, on trouve Microformat et Microdata, qui sont des langages permettant la structuration des données à partir de balises HTML (HyperText Markup Language [réf3]) existantes [réf4].

Microformats

Les microformats [réf5], aussi connus sous le terme « entités », sont des conventions essentiellement conçues pour la description d’informations précises comme le partage d’événements, de contacts ou de précisions géographiques. Les entités possèdent toutes leurs propres propriétés. Par exemple, un événement sera défini selon les propriétés « date », « lieu », « type d’événement », « heure », « contact », etc. La cohabitation des microformats avec les autres formats du web sémantique, notamment le RDF, duquel il sera question plus loin, n’est toutefois pas toujours efficace.


Exemple :

Utilisé pour établir des profils d’individu contenant une somme d’informations limitée, les microformats sont communément employés dans le but de constituer des annuaires de personnes. Dans l’exemple ci-dessus, on peut distinguer la nature des différents champs composant une « vcard » (standard de carte d’affaire électronique [réf6]). Ils viennent plus précisément offrir de l’information sur le profil de la personne au travers de son organisation ou de son numéro de téléphone, par exemple.

Microdata

Le format Microdata [réf7] permet quant à lui de créer des liens sémantiques entre des contenus déjà présents sur le web en ajoutant des balises à la structure HTML. Des navigateurs web ou des moteurs de recherche comme Google, Bing et Yahoo !, entre autres, sont en mesure d’extraire les contenus en Microdata des sites web afin de mettre certaines informations en évidence sur leur propre site et ainsi fournir aux utilisateurs les résultats de recherche les plus pertinents.

Le site schema.org recense les différentes balises prévues à cet effet. Il propose en fait une série de marqueurs HTML qu’il est possible d’employer pour le balisage des sites de manière à ce que ceux-ci soient reconnus par les principaux moteurs de recherche, qui s’appuient sur ces conventions pour permettre aux internautes de bénéficier des meilleurs résultats : « A shared markup vocabulary makes it easier for webmasters to decide on a markup schema and get the maximum benefit for their efforts. So, in the spirit of sitemaps.org, search engines have come together to provide a shared collection of schemas that webmasters can use [1]. » Il reste en outre possible de programmer des balises spécifiques selon les besoins.

Extrait de la convention schema.org (portion de la hiérarchie d’un fichier type) :

Exemple :

Les microdatas peuvent être envisagés comme une version évoluée des microformats, de par leurs fonctionnalités ainsi que la technologie au sein de laquelle ils s’inscrivent (HTML5 [2]). Un des grands intérêts de ce format est de pouvoir être interprété par les principaux moteurs de recherche (Google, Bing, Yahoo !) en affichant de manière distincte les informations émanant de ces derniers. Ainsi, on peut constater dans l’exemple ci-dessus que Google distingue par un affichage différent le nom de la personne de son organisation et de son affiliation professionnelle.

RDF

RDF (Resource Description Framework) est un modèle d’information parmi les plus reconnus du web sémantique. Il définit les règles qui relient les informations entre elles. Les documents RDF sont structurés grâce à des ensembles de triplets (sujet, prédicat, objet). Pour être compréhensible par les machines, ce format doit être interprété par les agents logiciels qui échangent de l’information entre eux. Par conséquent, les systèmes (sauf exception) doivent être équipés de telles fonctionnalités pour pouvoir utiliser/interpréter ce format.

Exemple :

Ici, on peut constater la manière dont l’information est structurée en RDF grâce à des balises permettant d’accroître la granularité de l’information première (description) et de préciser ainsi la nature du contenu diffusé. Devenus référants, d’autres formats (FOAF, OAI/PMH, Dublin Core, etc.) viennent compléter les termes de base du RDF grâce à un vocable plus précis.

OWL

OWL (Web Ontology Language) est un prolongement de RDF. Il s’agit d’un vocabulaire qui permet la définition d’ontologies structurées selon le modèle d’organisation des données de RDF. Ce vocable XML [réf8] permet de spécifier ce qui ne peut pas être compris d’emblée par la machine en fournissant un langage propice à l’élaboration d’une ontologie.

En ce sens, OWL fournit une aide précieuse pour la gestion et la compréhension des informations par les machines. Différentes versions de OWL (Lite, DL, Full) existent et doivent être utilisées en fonction de la granularité (ou niveau de détails) des hiérarchies souhaitées [réf9].

Même si le balisage de ces formats demeure relativement peu standardisé à ce jour, il existe des initiatives importantes qui permettent une certaine uniformisation dans l’organisation des données.

FOAF (Friend of a Friend) — FOAF a été créé au début des années 2000 par Libby Miller et Dan Brickley. Il s’agit d’une ontologie reposant sur le vocabulaire singulier du RDF et de l’OWL qui permet de définir, de manière descriptive, les spécifications des individus, de leurs activités et des relations qu’ils entretiennent avec d’autres personnes ou objets. Par exemple, elle spécifiera le prénom et le nom de l’individu, l’adresse de son site web personnel, la liste de ses réalisations et de ses projets en cours, ses activités professionnelles, etc [réf9].

Exemple :

Malgré ses nombreux avantages, l’utilisation de ce format reste relativement marginale. FOAF a toutefois été adopté par des communautés en ligne importantes comme WordPress [réf10] et Identi.ca [réf11]. Afin de contrer de possibles utilisations fallacieuses des données diffusées, FOAF permet notamment le cryptage (SHA-1 : Secure Hash Algorithm [réf12]) des adresses courriels.

OAI-PMH — Open Archives Initiative Protocol for Metadata Harvesting est un mécanisme favorisant l’interopérabilité entre différentes sources de référence. La structuration des données doit être réalisée par les fournisseurs de données. OAI-PMH est un ensemble de six verbes ou services qui sont invoqués par le biais du protocole HTTP. OAI-PMH peut être considéré comme une couche venant ajouter de l’information supplémentaire aux principales balises RDF. Ce format sera probablement celui sur lequel le Laboratoire NT2 [réf13] s’appuiera au cours des prochaines années, notamment pour son projet CELL, évoqué en conclusion. Il permettra aux différentes équipes se mêlant au projet de coordonner, et ainsi homogénéiser, leur vocabulaire taxonomique.

Dublin Core — Dublin Core Metadata correspond à une liste de métadonnées qui sont liées aux sites web. Celles-ci ont été rassemblées sous la convention DCMI (Dublin Core Metadata Initiative), qui comporte notamment une liste officielle de 15 propriétés normalisées [3].

Parrainé, en 1995, par le Online Computer Library Center (OCLC [réf14]) et le National Center for Supercomputing Applications (NCSA [réf15]), ce projet a alors réuni 52 chercheurs et experts désireux de faire évoluer la réflexion sur la structuration des métadonnées. L’initiative Dublin Core est notamment née de la volonté de normaliser les différentes balises nécessaires à la métadescription des références bibliographiques, ainsi que d’établir des relations entre ces références et d’autres ressources.

Exemple :

DRUPAL

Tel qu’évoqué précédemment, le web 3.0 implique une structuration méthodique des données dans le but de les rendre potentiellement réutilisables par d’autres sites ou d’autres systèmes. La hiérarchisation de ces données, également appelée « schéma », est particulièrement facile à intégrer au sein d’un système de gestion de contenu (CMS) comme Drupal. En effet, Drupal évite aux programmeurs les processus de « capture » et de gestion des métadonnées. En plus d’être pourvu nativement d’un module RDF permettant le balisage des différents champs des sites web, la communauté propre à Drupal a développé plusieurs modules garantissant le respect des normes de publication.

Drupal est un logiciel open source publié sous licence générale (GNU [déf3]) et maintenu par une très vaste communauté à travers le monde. Dès ses premières versions, le logiciel a été orienté vers la métacatégorisation du contenu hébergé par l’utilisation des outils taxonomiques. La création d’une ontologie taxonomique composée d’un vocabulaire et de termes qui lui sont reliés constitue l’une des bases pour produire, gérer et diffuser efficacement du contenu via cet environnement de développement. Car il ne s’agit plus uniquement, aujourd’hui, de bien structurer son site, mais de faire en sorte qu’il interagisse avec d’autres systèmes en rendant son contenu intelligible pour que les échanges puissent être efficaces, et ce, indépendamment de la langue [réf16].

Afin de rendre le dialogue possible entre les systèmes, permettre la recherche et la gestion des données RDF disponibles sur la toile, un autre langage du nom de SPARQL a été créé. La version 1.1 permet à ce langage d’enregistrer et de fusionner des données émanant de sources différentes [réf17].

On comprend alors la pertinence d’une telle structuration et d’un tel appareillage pour la constitution, par exemple, d’une communauté virtuelle autour d’un même objet d’étude ou pour les besoins d’une équipe de recherche disséminée géographiquement et ne partageant pas forcément les mêmes systèmes d’archivage et de diffusion.

Les limites du moteur de recherche propre à Drupal entraînent la nécessité de convoquer un autre moteur plus puissant, qui puisse s’intégrer de manière harmonieuse à la logique de ce CMS. Apache Solr est l’une des solutions possibles. Solr a été créé par la fondation Apache qui distribue l’ensemble des logiciels qu’elle développe sous licence libre.

Programmé en Java [4], un langage orienté vers l’objet, Apache Solr est doté d’une interface en HTML permettant de faciliter la gestion de ses fonctionnalités. La prise en compte des facettes — les critères pour le filtrage des données — générées par les taxonomies et la structure de Drupal (les types de contenus, notamment) font de cet outil un compagnon idéal pour la recherche avancée au sein d’une base de données complexe.

Dans une utilisation couplée de Drupal et d’Apache Solr, les facettes présentent une double utilité. Jouant avant tout le rôle de métadonnées, les facettes informent le contenu de la teneur du message dont il est porteur ; elles vont également fournir au moteur de recherche des éléments servant à filtrer le contenu accumulé (mais « facetté ») dans la base de données. Dans le même sens, la prise en compte par Apache Solr du format RDF fait de cet outil un incontournable de l’organisation des métadonnées sous Drupal [réf18].

En outre, l’indexation partagée constitue un moyen idéal pour indexer l’ensemble des sites appartenant à un même écosystème [réf19]. L’objectif alors poursuivi est de pouvoir effectuer une recherche de manière transversale sur l’ensemble des sites. Pour y parvenir, l’utilisation d’une ontologie commune est nécessaire. D’autres ontologies, plus spécifiques et propres à chacun des projets de recherche, peuvent venir s’y greffer et ainsi densifier les informations premières. Une réflexion ayant pour finalité l’établissement de passerelles sémantiques afin d’intégrer ces nouveaux fragments taxonomiques s’impose alors d’emblée.

Un cas particulier : le TEI

Le TEI, pour Text Encoding Initiative, a été créé en 1987 par un consortium formé de trois sociétés savantes (ACH, Association for Computers and the Humanities ; ACL, Association for Computational Linguistics ; et ALLC, Association for Literary and Linguistic Computing [réf20]). L’objectif premier du TEI, qui était à l’origine fondé sur le langage SGML [réf21], était de « faciliter la création, l’échange et l’intégration de données textuelles informatisées [5] ». Désormais lié à l’emploi de balises XML, les conventions élaborées dans le cadre du TEI visent à permettre la description de la manière dont un document a été créé ainsi que la façon dont il a été structuré : pages, paragraphes, lignes, chapitres, dialogues, soulignements, ajouts marginaux, ratures, etc. C’est pourquoi les protocoles proposés par le TEI sont surtout adoptés dans le cas de projets d’édition de textes anciens, de manuscrits ou de dossiers génétiques, où il s’agit parfois de reconstituer le processus ayant mené à la version définitive d’un texte. Toutefois, puisque le TEI ne constitue pas un modèle entièrement adapté au contexte du web sémantique, ces protocoles doivent impérativement être accompagnés du RDF pour permettre la mise en relation des sources, afin d’éviter que les textes ne se trouvent insularisés.

En somme, comme ce bref parcours aura permis de le constater, s’intéresser à l’organisation des métadonnées dans le contexte du web sémantique implique de connaître les potentialités des différents formats et langages tels Microformat, Microdata, RDF et OWL, qui font autorité dans le domaine. Certaines pratiques, on l’a vu, répondent davantage aux besoins de professions ou d’activités spécifiques, notamment dans les domaines de l’édition et de la bibliothéconomie. Les figures de l’individu et de l’événement sont par ailleurs particulièrement bien représentées.

Dans un contexte plus général, les travaux visant la constitution d’une ontologie pour le web propre aux différents types d’objets de recherche demeurent embryonnaires. Une initiative a récemment été lancée, en ce sens, par l’Electronic Literature Organization (ELO [réf22], rendu possible grâce à la mise en commun des ontologies propres à chacune des unités de recherche, va permettre, à terme, l’échange, la normalisation et la densification des données partagées.

Fabre Grégory, Marcotte Sophie (2014). “L’organisation des métadonnées”, in Les Presses de l’Université de Montréal (édité par), Pratiques de l’édition numérique, collection « Parcours Numériques », Montréal, p. 161-176, ISBN: 978-2-7606-3202-8 (http://www.parcoursnumeriques-pum.ca/l-organisation-des-metadonnees), RIS, BibTeX.


Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale 4.0 International. Merci de citer l'auteur et la source.

Réalisé avec SPIP pour la Collection Parcours Numériques aux éditions PUM par Owell.co

SOMMAIRE NOTES & NOTES ADDITIONNELLES

[réf1Pour en savoir plus sur le web sémantique, voir le chapitre 5 - Les enjeux du web sémantique par Yannick Maignien.

[déf1Le hashtag ou mot-clic est composé du signe # et d’un mot-clé (ou groupe de mots-clés non séparés par des espaces) qui, assemblés, permettent de « marquer » un contenu. Il a été largement popularisé par son emploi sur les réseaux sociaux comme par exemple Twitter et Instagram.

[déf2Les crawlers sont des robots d’indexation qui, en parcourant le web, collectent un ensemble de ressources nécessaires au moteur de recherche pour l’indexation des pages.

[vidéo1Voir un tutoriel sur le fonctionnement de module Taxonomy Manager.

[réf2Selon Thomas R. Gruber, une ontologie est « une spécification explicite d’une conceptualisation » (Thomas R. Gruber, Towards Principles for the Design of Ontologies Used for Knowledge Sharing in Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993). En d’autres termes, l’ontologie correspond à la description formelle d’un domaine de connaissances afin que celles-ci puissent être interprétées par les ordinateurs.

[réf3Pour en savoir plus sur le HTML HyperText Markup Language, voir aussi le chapitre 9 - Les formats par Viviane Boulétreau et Benoît Habert.

[réf4Voir à ce sujet l’article de Julien Plu, « Introduction au web sémantique (2011).

[réf5En savoir plus sur les microformats.

[réf6vCard vient de l’anglais Visit Card (Carte de visite).

[réf7En savoir plus sur les Microdata.

[1Voir schema.org

[2HyperText Markup Language), développée par le WHATWG (Web Hypertext Application Technology) et le W3C. En savoir plus.

[réf8Pour en savoir plus sur le XML, voir le chapitre 9 - Les formats par Viviane Boulétreau et Benoît Habert.

[réf9Voir à ce sujet la page « Web Ontology Language » sur le site du W3C.

[réf9En savoir plus cette ontologie sur le site foaf-project.

[réf10WordPress est une plateforme de blogs et un CMS (Content Management System). En savoir plus.

[réf11Basé sur un logiciel open source — (StatusNet), Identi.ca est un service alliant réseau social et microblogage. En savoir plus.

[réf12Le cryptage SHA-1 (Secure Hash Algorithm) a été inventé par la NSA (National Security Agency). En savoir plus.

[réf13Le Laboratoire NT2 est un laboratoire universitaire de recherches sur les œuvres hypermédiatiques. En savoir plus.

[3ISO 15836-2003, RFC 5013. Voir la liste des 15 propriétés Dublin Core.

[réf14Depuis 1967, l’organisme à but non lucratif — OCLC (Online Computer Library Center) — regroupe des bibliothèques du monde entier autour de projets communs et collaboratifs pour améliorer l’accès aux informations détenues par les bibliothèques et réduire leurs coûts. En savoir plus.

[réf15Le NCSA (National Center for Supercomputing Applications) est un centre américain fournissant des services et des ressources aux scientifiques et aux ingénieurs. En savoir plus.

[déf3La licence publique générale GNU (GNU General Public License a été créée par Richard Stallman en 1989. En savoir plus.

[réf16En savoir plus sur le site de Drupal.

[réf17Un module Drupal permet l’usage de SPARQL. En savoir plus.

[4James Gosling et al.,The Java Language Specification, Boston, Addison-Wesley, 2005.

[réf18En savoir plus sur Apache Solr.

[réf19Voir l’exemple du Laboratoire NT2, Laboratoire de recherche sur les arts et la littérature hypermédiatiques.

[réf21SGML : Standard Generalized Markup Language, langage normalisé de balisage généralisé. En savoir plus.

[5Lou Burnard, « Le schéma XML TEI pour l’édition », Université d’été de l’édition électronique ouverte, 2009. Ecouter l’intervention :

[réf22Fondée en 1999, l’Electronic Literature Organization (ELO) est un organisme à but non lucratif regroupant auteurs, enseignants, étudiants, artistes et développeurs autour de la promotion de la littérature sous toutes ses formes à l’ère du numérique. En savoir plus.). Elle consiste à réunir, dans un souci d’interopérabilité, les informations des bases de données réparties au sein de laboratoires de recherche qui s’intéressent à la création et à l’étude des œuvres hypermédiatiques. Ce projet de grande envergure, intitulé CELL[[« The first generation of CELL partners includes the ELO, University of Western Sydney (Creative Nation), ELMCIP, Po.Ex, NT2, Electronic Book Review, University of Siegen (Likumed), Hermeneia, and Archiveit.org/Library of Congress. ». En savoir plus sur le projet CELL (Consortium of Electronic Literature).















CONTENUS ADDITIONNELS : 4 contenus
  • Bibliographie du Chapitre 10 - L’organisation des métadonnées pour le manuel Pratiques de l’édition numérique

  • Le schéma XML TEI pour l’édition par Lou Burnard, Université d’été de l’édition électronique ouverte (2009)

  • « Immersion : a people-centric view of your email life » : visualiser vos métadonnées avec le MIT.

  • Analyse de texte du chapitre avec Voyant Tools







.