L’organisation des métadonnées

L’organisation des métadonnées

⊕ Grégory Fabre, Sophie Marcotte, « L’organisation des métadonnées », dans Michael E. Sinatra, Marcello Vitali-Rosati (dir.), Pratiques de l’édition numérique (édition augmentée), Presses de l’Université de Montréal, Montréal, 2014, isbn : 978-2-7606-3592-0, https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre10.html.
version 1, 01/03/2014
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Nous avons déjà insisté sur l’importance des métadonnées. Nous pouvons affirmer que se joue là un des enjeux fondamentaux de la structuration des contenus. Selon notre façon de baliser les informations, nous les rendons accessibles, visibles et exploitables, mais nous construisons aussi une taxinomie du monde. Les métadonnées constituent un outil technique destiné à rendre compte de notre vision du monde et de la structuration de l’ensemble de nos connaissances. C’est parce qu’elle a produit une taxinomie précise et vaste que l’œuvre d’Aristote a autant marqué notre culture occidentale. L’enjeu est donc très important aujourd’hui, lorsque cette taxinomie est destinée à être reprise et généralisée dans tous les domaines de la connaissance – de la description des relations entre individus, décrite par les métadonnées d’un réseau social comme Facebook, à la hiérarchisation des informations bibliographiques du Dublin Core. Ce chapitre illustre, de manière très pratique, les principales caractéristiques des métadonnées et les fonctionnalités automatiques qu’elles permettent.

Mise en place d’une ontologie

Les technologies actuelles permettent de plus en plus aux chercheurs d’archiver, de diffuser et d’échanger aisément sur l’évolution de leurs recherches. Cela répond d’ailleurs à une nouvelle réalité dans le milieu de la recherche : celle de la création d’outils de diffusion mieux adaptés au transfert et à la circulation des connaissances. Pour ce faire, il importe de concevoir des outils et d’élaborer des pratiques et des protocoles communs.

La diffusion sur support numérique de textes ou de résultats de recherche fragmentaires ou achevés implique un processus dont la complexité devient parfois un obstacle difficile à surmonter pour les chercheurs habitués à publier leurs travaux en passant par les supports imprimés traditionnels (livres, revues, journaux, etc.). Le web n’est pas encore, en effet, le média de publication le plus employé pour la publication d’articles savants, d’édition critiques ou de textes de fiction, si bien que la plupart des protocoles restent à être définis et, surtout, à être apprivoisés par les chercheurs. Or il faut s’interroger sur la manière de faire évoluer les pratiques sans réduire la portée des contenus, sur la manière de changer les processus sans travestir les résultats, tout en insistant sur la valeur ajoutée des différentes pratiques inhérentes à l’édition et à la publication numériques.

Si l’un des objectifs du web 2.0 a été de simplifier un usage parfois complexe d’Internet, en se souciant notamment de l’ergonomie des interfaces et en plaçant l’utilisateur (non spécialiste) au cœur des enjeux – l’utilisateur partage, contribue, commente –, les visées du web 3.0 (ou web sémantiquePour en savoir plus sur le web sémantique, voir « Les enjeux du web sémantique » par Yannick Maignien.↩︎) sont autres. Il s’agit désormais de penser le web en termes de structuration et de programmation des métadonnées. Pour le dire autrement, il y a passage d’une version du web horizontale, où la catégorisation est mise à plat (par exemple, le hashtagLe hashtag ou mot-clic est composé du signe # et d’un mot-clé (ou groupe de mots-clés non séparés par des espaces) qui, assemblés, permettent de « marquer » un contenu. Il a été largement popularisé par son emploi sur les réseaux sociaux comme par exemple Twitter et Instagram.↩︎), à une version hiérarchisée et informée, où le relief de la structuration met en évidence auprès des autres systèmes sémantiques la nature du contenu diffusé.

Dans ce contexte, les modalités de recherche deviennent également un enjeu crucial. Le SEO (Search Engine Optimization, optimisation pour les moteurs de recherche) a longtemps été l’apanage des compagnies privées qui promettent à leurs clients un meilleur positionnement au sein des moteurs de recherche les plus populaires et performants. Face à la pléthore de sites indexés chaque jour par ces derniers, il convient d’adopter des stratégies visant à ne pas voir son site noyé dans un océan de références, surtout lorsqu’il s’agit d’initiatives de recherche ou à visée éducationnelle. Dès lors, la métacatégorisation du contenu – le fait, autrement dit, de rendre intelligibles les contenus publiés sur son site – est à la base des très nombreuses stratégies possibles pour ne pas pâtir des crawlersLes crawlers sont des robots d’indexation qui, en parcourant le web, collectent un ensemble de ressources nécessaires au moteur de recherche pour l’indexation des pages.↩︎ de Google, Yahoo ! et consorts programmés pour indexer (donc, classer).

Rendre une donnée intelligible, partageable et catégorisable nécessite une conception et un regard communs sur l’objet à qualifier. En d’autres termes, le systématisme imposé par la machine n’est pas toujours évident à faire cohabiter avec la réalité d’une recherche en cours. En effet, la catégorisation implique une compréhension globale et préalable du sujet étudié. Comment parvenir à un consensus permettant l’élaboration d’un système dans un contexte aussi mouvant ?

Le choix des outils occupe à cet égard une place prépondérante. Ces derniers doivent permettre la flexibilité imposée par l’évolution constante des recherches. En effet, les catégories dans lesquelles les contenus sont « classés » doivent être redéfinies régulièrement. Ainsi, l’environnement de publication en ligne (tel Drupal, qui sera évoqué dans les pages qui suivent) aura nécessairement besoin d’être pourvu d’outils appropriés pour faire face à cette mouvance des contenus inhérente à la recherche. En ce sens, le module Taxonomy Manager est une interface très performante pour la gestion d’ontologies. Il permet entre autres l’ajout de nouveaux termes, mais également la fusion de plusieurs termes, ainsi que le déplacement d’un terme au sein d’une autre catégorie (« vocabulaire »).

Tutoriel sur le fonctionnement du module Taxonomy Manager

Crédits : appliedrelevance

Source

Proposé par éditeur le 2014-03-01

Une ontologie informatiqueSelon Thomas R. Gruber, une ontologie est « une spécification explicite d’une conceptualisation » (1993). En d’autres termes, l’ontologie correspond à la description formelle d’un domaine de connaissances afin que celles-ci puissent être interprétées par les ordinateurs.↩︎ est un ensemble de termes et concepts réunis pour décrire un domaine ou un objet d’étude. Structurée sous une forme hiérarchisée (parent/enfant ou vocabulaire/terme), son utilisation permet d’informer, par des métadonnées, le contenu diffusé et de renseigner sur la nature des différents champs composant un site web. Une telle structuration s’explique à la fois par la volonté d’établir une interrelation féconde entre deux systèmes (par exemple, un site et un moteur de recherche de type Google), mais permet également d’élaborer une circulation de l’information efficace au sein d’un seul et même système. Des relations croisées entre différents vocabulaires ou termes d’une ontologie peuvent ainsi être envisagées afin d’approfondir une requête au sein d’un environnement de recherche propre à un système.

Les formats sémantiques

Différents formats et langages de description des données permettent d’organiser et de partager efficacement de l’information dans l’environnement du web. Parmi ceux-ci, on trouve Microformat et Microdata, qui sont des langages permettant la structuration des données à partir de balises HTML (HyperText Markup Language)Pour en savoir plus sur le HTML HyperText Markup Language, voir aussi « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎ existantesVoir à ce sujet l’article de Julien Plu, « Introduction au web sémantique » (2011).↩︎.

Microformats

Les microformatsEn savoir plus sur les microformats.↩︎, aussi connus sous le terme « entités », sont des conventions essentiellement conçues pour la description d’informations précises comme le partage d’événements, de contacts ou de précisions géographiques. Les entités possèdent toutes leurs propres propriétés. Par exemple, un événement sera défini selon les propriétés « date », « lieu », « type d’événement », « heure », « contact », etc. La cohabitation des microformats avec les autres formats du web sémantique, notamment le RDF, duquel il sera question plus loin, n’est toutefois pas toujours efficace.

Exemple :


      <address class="vcard">

      <p>

      <span class="fn">Charlie Temple</span><br/>

      <span class="org">Laboratoire NT2</span><br/>

      <span class="tel">514-xxx-xxxx</span><br/>

      <a class="url" href="http://figura-concordia.nt2.ca/"<>Site web</a>

      </p>

      </address>

Utilisé pour établir des profils d’individu contenant une somme d’informations limitée, les microformats sont communément employés dans le but de constituer des annuaires de personnes. Dans l’exemple ci-dessus, on peut distinguer la nature des différents champs composant une « vcard » (standard de carte d’affaire électroniquevCard vient de l’anglais Visit Card (Carte de visite).↩︎). Ils viennent plus précisément offrir de l’information sur le profil de la personne au travers de son organisation ou de son numéro de téléphone, par exemple.

Microdata

Le format MicrodataEn savoir plus sur les Microdata.↩︎ permet quant à lui de créer des liens sémantiques entre des contenus déjà présents sur le web en ajoutant des balises à la structure HTML. Des navigateurs web ou des moteurs de recherche comme Google, Bing et Yahoo !, entre autres, sont en mesure d’extraire les contenus en Microdata des sites web afin de mettre certaines informations en évidence sur leur propre site et ainsi fournir aux utilisateurs les résultats de recherche les plus pertinents.

Le site schema.org recense les différentes balises prévues à cet effet. Il propose en fait une série de marqueurs HTML qu’il est possible d’employer pour le balisage des sites de manière à ce que ceux-ci soient reconnus par les principaux moteurs de recherche, qui s’appuient sur ces conventions pour permettre aux internautes de bénéficier des meilleurs résultats :

A shared markup vocabulary makes it easier for webmasters to decide on a markup schema and get the maximum benefit for their efforts. So, in the spirit of sitemaps.org, search engines have come together to provide a shared collection of schemas that webmasters can useVoir schema.org.↩︎.

Il reste en outre possible de programmer des balises spécifiques selon les besoins.

Extrait de la convention schema.org (portion de la hiérarchie d’un fichier typeVoir la structure complète.↩︎) :


      Thing additionalType, description, image, name, url   

      Class   

      Creative Work about, accountablePerson, aggregateRating,
  alternativeHeadline, associatedMedia, audience, audio, author, award,
  awards, comment, contentLocation, contentRating, contributor,
  copyrightHolder, copyrightYear, creator, dateCreated, dateModified,
  datePublished, discussionUrl, editor, educationalAlignment,
  interactionCount, interactivityType, isBasedOnUrl, isFamilyFriendly,
  keywords, learningResourceType, mentions, offers, provider, publisher,
  publishingPrinciples, review, reviews, sourceOrganization, text,
  thumbnailUrl, timeRequired, typicalAgeRange, version, video   

      Article articleBody, articleSection, wordCount   

      BlogPosting   

      NewsArticle dateline, printColumn, printEdition, printPage,
  printSection.

Exemple :


      <div itemscope itemtype="http://schema.org/Person">   

      <span itemprop="name">Charlie Temple</span>    

      <img src="smarcotte.jpg" itemprop="image" />   

      <span itemprop="jobTitle">Professor</span>    

      <div itemprop="address" itemscope
      itemtype="http://schema.org/PostalAddress">   

      <span itemprop="streetAddress">   

      400, boul. de Maisonneuve Ouest   

      </span>   

      <span itemprop="addressLocality">Montreal</span>,   

      <span itemprop="addressRegion">QC</span>   

      <span itemprop="postalCode">H3G 1M8</span>   

      </div>   

      </div>

Les microdatas peuvent être envisagées comme une version évoluée des microformats, de par leurs fonctionnalités ainsi que la technologie au sein de laquelle ils s’inscrivent (HTML5Le HTML5 est, en 2014, la version la plus avancée du langage HTML (HyperText Markup Language), développée par le WHATWG (Web Hypertext Application Technology) et le W3C.↩︎). Un des grands intérêts de ce format est de pouvoir être interprété par les principaux moteurs de recherche (Google, Bing, Yahoo !) en affichant de manière distincte les informations émanant de ces derniers. Ainsi, on peut constater dans l’exemple ci-dessus que Google distingue par un affichage différent le nom de la personne de son organisation et de son affiliation professionnelle.

RDF

RDF (Resource Description Framework) est un modèle d’information parmi les plus reconnus du web sémantique. Il définit les règles qui relient les informations entre elles. Les documents RDF sont structurés grâce à des ensembles de triplets (sujet, prédicat, objet). Pour être compréhensible par les machines, ce format doit être interprété par les agents logiciels qui échangent de l’information entre eux. Par conséquent, les systèmes (sauf exception) doivent être équipés de telles fonctionnalités pour pouvoir utiliser/interpréter ce format.

Exemple :


      <rdf:RDF

      xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

      xmlns:dc="http://purl.org/dc/elements/1.1/">

      <rdf:Description
      rdf:about="http://figura.uqam.ca/membre/marcotte-sophie">

      <dc:title>Sophie Marcotte</dc:title>

      <dc:publisher>Laboratoire NT2</dc:publisher>

      </rdf:Description>

      </rdf:RDF>

Ici, on peut constater la manière dont l’information est structurée en RDF grâce à des balises permettant d’accroître la granularité de l’information première (description) et de préciser ainsi la nature du contenu diffusé. Devenus référants, d’autres formats (FOAF, OAI/PMH, Dublin Core, etc.) viennent compléter les termes de base du RDF grâce à un vocable plus précis.

OWL

OWL (Web Ontology Language) est un prolongement de RDF. Il s’agit d’un vocabulaire qui permet la définition d’ontologies structurées selon le modèle d’organisation des données de RDF. Ce vocable XMLPour en savoir plus sur le XML, voir « Les formats » par Viviane Boulétreau et Benoît Habert.↩︎ permet de spécifier ce qui ne peut pas être compris d’emblée par la machine en fournissant un langage propice à l’élaboration d’une ontologie.

En ce sens, OWL fournit une aide précieuse pour la gestion et la compréhension des informations par les machines. Différentes versions de OWL (Lite, DL, Full) existent et doivent être utilisées en fonction de la granularité (ou niveau de détails) des hiérarchies souhaitéesVoir à ce sujet la page « Web Ontology Language » sur le site du W3C.↩︎.

Même si le balisage de ces formats demeure relativement peu standardisé à ce jour, il existe des initiatives importantes qui permettent une certaine uniformisation dans l’organisation des données.

FOAF (Friend of a Friend) – FOAF a été créé au début des années 2000 par Libby Miller et Dan Brickley. Il s’agit d’une ontologie reposant sur le vocabulaire singulier du RDF et de l’OWL qui permet de définir, de manière descriptive, les spécifications des individus, de leurs activités et des relations qu’ils entretiennent avec d’autres personnes ou objets. Par exemple, elle spécifiera le prénom et le nom de l’individu, l’adresse de son site web personnel, la liste de ses réalisations et de ses projets en cours, ses activités professionnelles, etcEn savoir plus cette ontologie sur le site foaf-project.↩︎.

Exemple :


  <foaf:Group>   

  <foaf:name>Laboratoire NT2 Crew</foaf:name>   

  <foaf:member>   

  <foaf:Person>   

  <foaf:name>Sophie Marcotte</foaf:name>   

  <foaf:homepage
  rdf:resource="http://figura.uqam.ca/membre/marcotte-sophie"/>   

  <foaf:workplaceHomepage rdf:resource="http://figura.uqam.ca"/>   

  </foaf:Person>   

  </foaf:member>   

  </foaf:Group>

Malgré ses nombreux avantages, l’utilisation de ce format reste relativement marginale. FOAF a toutefois été adopté par des communautés en ligne importantes comme WordPressWordPress est une plateforme de blogs et un CMS (Content Management System).↩︎ et Identi.caBasé sur un logiciel open source – (StatusNet), Identi.ca est un service alliant réseau social et microblogage.↩︎. Afin de contrer de possibles utilisations fallacieuses des données diffusées, FOAF permet notamment le cryptage (SHA-1 : Secure Hash AlgorithmLe cryptage SHA-1 (Secure Hash Algorithm) a été inventé par la NSA (National Security Agency).↩︎) des adresses courriels.

OAI-PMH – ;Open Archives Initiative Protocol for Metadata Harvesting est un mécanisme favorisant l’interopérabilité entre différentes sources de référence. La structuration des données doit être réalisée par les fournisseurs de données. OAI-PMH est un ensemble de six verbes ou services qui sont invoqués par le biais du protocole HTTP. OAI-PMH peut être considéré comme une couche venant ajouter de l’information supplémentaire aux principales balises RDF. Ce format sera probablement celui sur lequel le Laboratoire NT2Le Laboratoire NT2 est un laboratoire universitaire de recherches sur les œuvres hypermédiatiques.↩︎ s’appuiera au cours des prochaines années, notamment pour son projet CELL, évoqué en conclusion. Il permettra aux différentes équipes se mêlant au projet de coordonner, et ainsi homogénéiser, leur vocabulaire taxonomique.

Dublin Core – Dublin Core Metadata correspond à une liste de métadonnées qui sont liées aux sites web. Celles-ci ont été rassemblées sous la convention DCMI (Dublin Core Metadata Initiative), qui comporte notamment une liste officielle de 15 propriétés normaliséesISO 15836-2003, RFC 5013. Voir la liste des 15 propriétés Dublin Core.↩︎.

Parrainé, en 1995, par le Online Computer Library Center (OCLC)Depuis 1967, l’organisme à but non lucratif – OCLC (Online Computer Library Center) – regroupe des bibliothèques du monde entier autour de projets communs et collaboratifs pour améliorer l’accès aux informations détenues par les bibliothèques et réduire leurs coûts.↩︎ et le National Center for Supercomputing Applications (NCSA)Le NCSA (National Center for Supercomputing Applications) est un centre américain fournissant des services et des ressources aux scientifiques et aux ingénieurs.↩︎, ce projet a alors réuni 52 chercheurs et experts désireux de faire évoluer la réflexion sur la structuration des métadonnées. L’initiative Dublin Core est notamment née de la volonté de normaliser les différentes balises nécessaires à la métadescription des références bibliographiques, ainsi que d’établir des relations entre ces références et d’autres ressources.

Exemple :


      <meta name="DC.title" lang="fr" content="De quoi t'ennuies-tu, Évelyne?" />   

      <meta name="DC.date" scheme="DCTERMS.W3CDTF" content="1945" />   

      <meta name="DC.creator" lang="fr" content="Gabrielle Roy" />   

      <meta name="DC.language" scheme="DCTERMS.RFC4646" content="fr-FR" />   

      <meta name="DC.description" lang="fr"    

      content=" Bonheur d'occasion est un roman urbain écrit par Gabrielle
  Roy et publié en 1945. Il a valu à l'écrivaine le prix Fémina, le
  premier prix littéraire prestigieux français remporté par un écrivain
  canadien "/>   

      <link rel="DC.source" href="urn:ISBN:978-2890525757" />

Drupal

Tel qu’évoqué précédemment, le web 3.0 implique une structuration méthodique des données dans le but de les rendre potentiellement réutilisables par d’autres sites ou d’autres systèmes. La hiérarchisation de ces données, également appelée « schéma », est particulièrement facile à intégrer au sein d’un système de gestion de contenu (CMS) comme Drupal. En effet, Drupal évite aux programmeurs les processus de « capture » et de gestion des métadonnées. En plus d’être pourvu nativement d’un module RDF permettant le balisage des différents champs des sites web, la communauté propre à Drupal a développé plusieurs modules garantissant le respect des normes de publication.

Drupal est un logiciel open source publié sous licence générale (GNULa licence publique générale GNU (GNU General Public License a été créée par Richard Stallman en 1989.↩︎) et maintenu par une très vaste communauté à travers le monde. Dès ses premières versions, le logiciel a été orienté vers la métacatégorisation du contenu hébergé par l’utilisation des outils taxonomiques. La création d’une ontologie taxonomique composée d’un vocabulaire et de termes qui lui sont reliés constitue l’une des bases pour produire, gérer et diffuser efficacement du contenu via cet environnement de développement. Car il ne s’agit plus uniquement, aujourd’hui, de bien structurer son site, mais de faire en sorte qu’il interagisse avec d’autres systèmes en rendant son contenu intelligible pour que les échanges puissent être efficaces, et ce, indépendamment de la langueEn savoir plus sur le site de Drupal.↩︎.

Afin de rendre le dialogue possible entre les systèmes, permettre la recherche et la gestion des données RDF disponibles sur la toile, un autre langage du nom de SPARQL a été créé. La version 1.1 permet à ce langage d’enregistrer et de fusionner des données émanant de sources différentesUn module Drupal permet l’usage de SPARQL. En savoir plus.↩︎.

On comprend alors la pertinence d’une telle structuration et d’un tel appareillage pour la constitution, par exemple, d’une communauté virtuelle autour d’un même objet d’étude ou pour les besoins d’une équipe de recherche disséminée géographiquement et ne partageant pas forcément les mêmes systèmes d’archivage et de diffusion.

Les limites du moteur de recherche propre à Drupal entraînent la nécessité de convoquer un autre moteur plus puissant, qui puisse s’intégrer de manière harmonieuse à la logique de ce CMS. Apache Solr est l’une des solutions possibles. Solr a été créé par la fondation Apache qui distribue l’ensemble des logiciels qu’elle développe sous licence libre.

Programmé en Java (Gosling 2013), un langage orienté vers l’objet, Apache Solr est doté d’une interface en HTML permettant de faciliter la gestion de ses fonctionnalités. La prise en compte des facettes – les critères pour le filtrage des données – générées par les taxonomies et la structure de Drupal (les types de contenus, notamment) font de cet outil un compagnon idéal pour la recherche avancée au sein d’une base de données complexe.

Dans une utilisation couplée de Drupal et d’Apache Solr, les facettes présentent une double utilité. Jouant avant tout le rôle de métadonnées, les facettes informent le contenu de la teneur du message dont il est porteur ; elles vont également fournir au moteur de recherche des éléments servant à filtrer le contenu accumulé (mais « facetté ») dans la base de données. Dans le même sens, la prise en compte par Apache Solr du format RDF fait de cet outil un incontournable de l’organisation des métadonnées sous DrupalEn savoir plus sur Apache Solr.↩︎.

En outre, l’indexation partagée constitue un moyen idéal pour indexer l’ensemble des sites appartenant à un même écosystèmeVoir l’exemple du Laboratoire NT2, Laboratoire de recherche sur les arts et la littérature hypermédiatiques.↩︎. L’objectif alors poursuivi est de pouvoir effectuer une recherche de manière transversale sur l’ensemble des sites. Pour y parvenir, l’utilisation d’une ontologie commune est nécessaire. D’autres ontologies, plus spécifiques et propres à chacun des projets de recherche, peuvent venir s’y greffer et ainsi densifier les informations premières. Une réflexion ayant pour finalité l’établissement de passerelles sémantiques afin d’intégrer ces nouveaux fragments taxonomiques s’impose alors d’emblée.

Un cas particulier : le TEI

Le TEI, pour Text Encoding Initiative, a été créé en 1987 par un consortium formé de trois sociétés savantes (ACH, Association for Computers and the Humanities ; ACL, Association for Computational Linguistics ; et ALLC, Association for Literary and Linguistic ComputingEn savoir plus sur l’ACH (Association for Computers and the Humanities), l’ACL (Association for Computational Linguistics) et l’ALLC (Association for Literary and Linguistic Computing).↩︎). L’objectif premier du TEI, qui était à l’origine fondé sur le langage SGMLSGML : Standard Generalized Markup Language, langage normalisé de balisage généralisé.↩︎, était de « faciliter la création, l’échange et l’intégration de données textuelles informatiséesLou Burnard, « Le schéma XML TEI pour l’édition », Université d’été de l’édition électronique ouverte, 2009.
Écouter l’intervention :
↩︎ ». Désormais lié à l’emploi de balises XML, les conventions élaborées dans le cadre du TEI visent à permettre la description de la manière dont un document a été créé ainsi que la façon dont il a été structuré : pages, paragraphes, lignes, chapitres, dialogues, soulignements, ajouts marginaux, ratures, etc. C’est pourquoi les protocoles proposés par le TEI sont surtout adoptés dans le cas de projets d’édition de textes anciens, de manuscrits ou de dossiers génétiques, où il s’agit parfois de reconstituer le processus ayant mené à la version définitive d’un texte. Toutefois, puisque le TEI ne constitue pas un modèle entièrement adapté au contexte du web sémantique, ces protocoles doivent impérativement être accompagnés du RDF pour permettre la mise en relation des sources, afin d’éviter que les textes ne se trouvent insularisés.

En somme, comme ce bref parcours aura permis de le constater, s’intéresser à l’organisation des métadonnées dans le contexte du web sémantique implique de connaître les potentialités des différents formats et langages tels Microformat, Microdata, RDF et OWL, qui font autorité dans le domaine. Certaines pratiques, on l’a vu, répondent davantage aux besoins de professions ou d’activités spécifiques, notamment dans les domaines de l’édition et de la bibliothéconomie. Les figures de l’individu et de l’événement sont par ailleurs particulièrement bien représentées.

Dans un contexte plus général, les travaux visant la constitution d’une ontologie pour le web propre aux différents types d’objets de recherche demeurent embryonnaires. Une initiative a récemment été lancée, en ce sens, par l’Electronic Literature Organization (ELO)Fondée en 1999, l’Electronic Literature Organization (ELO) est un organisme à but non lucratif regroupant auteurs, enseignants, étudiants, artistes et développeurs autour de la promotion de la littérature sous toutes ses formes à l’ère du numérique.↩︎. Elle consiste à réunir, dans un souci d’interopérabilité, les informations des bases de données réparties au sein de laboratoires de recherche qui s’intéressent à la création et à l’étude des œuvres hypermédiatiques. Ce projet de grande envergure, intitulé CELL« The first generation of CELL partners includes the ELO, University of Western Sydney (Creative Nation), ELMCIP, Po.Ex, NT2, Electronic Book Review, University of Siegen (Likumed), Hermeneia, and Archiveit.org/Library of Congress ». En savoir plus sur le projet CELL (Consortium of Electronic Literature).↩︎, rendu possible grâce à la mise en commun des ontologies propres à chacune des unités de recherche, va permettre, à terme, l’échange, la normalisation et la densification des données partagées.

Références

Abiteboul, S., éd. 2012. Web data management. New York: Cambridge University Press.

Allemang, Dean. 2011. Semantic Web for the working ontologist: effective modeling in RDFS and OWL. 2nd ed. Waltham, MA: Morgan Kaufmann/Elsevier.

Berners-Lee, Tim. 1999. Weaving the Web: the original design and ultimate destiny of the World Wide Web by its inventor. 1st ed. San Francisco: HarperSanFrancisco.

———. 2001. « «The Semantic web» ». Scientific American Magazine. http://www.scientificamerican.com/article/the-semantic-web/.

Foulonneau, Muriel. 2008. Metadata for digital resources: implementation, systems design and interoperability. Chandos information professional series. Oxford: Chandos Pub.

Gosling, James. 2013. The Java language specification. Java SE 7 edition. Upper Saddle River, NJ: Addison-Wesley.

Gruber, Thomas. 1993. « Toward Principles for the Design of Ontologies Used for Knowledge Sharing ». International Journal Human-Computer Studies 43 (5-6). http://tomgruber.org/writing/onto-design.htm.

Hitzler, Pascal. 2010. Foundations of Semantic Web technologies. Chapman & Hall/CRC textbooks in computing. Boca Raton: CRC Press.

Hyvönen, Eero. 2012. Publishing and using cultural heritage linked data on the semantic Web. San Rafael, Calif.: Morgan & Claypool Publishers. http://www.morganclaypool.com/doi/abs/10.2200/S00452ED1V01Y201210WBE003.

Lazinger, Susan S. 2001. Digital preservation and metadata: history, theory, practice. Englewood, Colo: Libraries Unlimited.

McCourt, Cindy, et Doug Vann. 2011. Drupal the guide to planning and building websites. Indianapolis, Ind.: Wiley Pub. http://www.books24x7.com/marc.asp?bookid=43148.

Miller, Steven J. 2011. Metadata for digital collections: a how-to-do-it manual. How-to-do-it manuals, no. 179. New York: Neal-Schuman Publishers. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3543127/.

Ouzzani, Mourad. 2011. Semantic web services for web databases. New York: Springer. http://link.springer.com/book/10.1007%2F978-1-4614-1644-9.

Plu, Julien. 2011. « Introduction au Web sémantique ». Developpez.com. https://jplu.developpez.com/tutoriels/web-semantique/introduction/.

Contenus additionnels

Le schéma XML TEI pour l’édition par Lou Burnard, Université d’été de l’édition électronique ouverte (2009)

Crédits : Lou Burnard, Nicolas Barts, Archive.org

Source

Proposé par auteur le 2014-03-01

« Immersion: a people-centric view of your email life » : visualiser vos métadonnées avec le MIT

Crédits : MIT

Source (archive)

Proposé par auteur le 2014-03-01

Grégory Fabre

Grégory Fabre est chargé de projets pour le Laboratoire NT2. Il évolue depuis plus de 10 ans au sein de différents médias (Web, TV, Presse écrite). En parallèle, il mène un projet de thèse de doctorat entre le Québec et la France et développe un travail d’artiste qu’il expose en Europe et en Amérique du Nord.

Sophie Marcotte

Sophie Marcotte est professeure au Département d’études françaises de l’Université Concordia. Elle est membre régulière du Centre Figura et directrice du laboratoire NT2-Concordia. Elle travaille depuis plusieurs années à un projet d’édition électronique des manuscrits et inédits de Gabrielle Roy, projet pour lequel elle reçoit présentement une subvention du Conseil de recherche en sciences humaines du Canada (2012-2016). Elle a publié une édition critique des lettres de Gabrielle Roy à Marcel Carbotte (Boréal, 2001) et a collaboré à l’édition de plusieurs autres recueils d’inédits de la romancière. Elle a aussi fait paraître plusieurs articles sur l’œuvre de Gabrielle Roy, sur les problématiques liées à la publication sur support numérique et sur la littérature québécoise du XXe siècle. Elle fait partie du comité éditorial de l’Édition du centenaire (Éditions du Boréal), collection dans laquelle sont publiées les Œuvres complètes de Roy.