Le mouvement Wikimédia au Canada

Gouvernements ouverts

Gouvernements ouverts

Un wiki pour les lier tous

Miguel Tremblay

Miguel Tremblay, « Gouvernements ouverts », dans Jean-Michel Lapointe, Marie D. Martel (dir.), Le mouvement Wikimédia au Canada (édition augmentée), Les Presses de l’Université de Montréal, Montréal, 2025, isbn : 978-2-7606-5389-4, https://www.parcoursnumeriques-pum.ca/13-wikimedia/chapitre6.html.
version 0, 31/03/2025
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Wikidata, la base de données libres de la Fondation Wikimédia, permet la centralisation des métadonnées dans le cadre des gouvernements ouverts, en facilitant la fusion des catalogues de données ouvertes. Les avantages de telles initiatives entre les gouvernements et Wikidata sont nombreux, notamment parce qu’elles favorisent une meilleure accessibilité et réutilisation des données, une uniformité accrue de celles-ci ainsi qu’une collaboration internationale augmentée. Le gouvernement du Canada offre un exemple concret de cet engagement avec le projet de téléversement des métadonnées météorologiques lequel permet de préciser les phases qui mènent à ce modèle de gouvernement ouvert à l’aide de Wikidata.

WikidataWikidata:Main_Page. Dans Wikidata.↩︎, la base de données libres de la Fondation Wikimédia, est un lieu de convergence idéal pour les métadonnées des gouvernements ouverts du monde entier (Krabina et Polleres 2021; Pellissier Tanon et al. 2016). En effet, regrouper des catalogues de données ouvertes permet de croiser les informations de ces jeux de données entre elles, mais aussi celles d’une centaine de millions d’éléments déjà présents sur Wikidata (Hitz-Gamper, Neumann, et Stürmer 2019; Krabina et Polleres 2021). Cette solution clés en main offre une infrastructure informatique, des méthodes et des accès logiciels pour combiner les données, et peut compter sur la participation bénévole d’une communauté activeL’une des particularités de Wikidata est de reposer sur une communauté bénévole. C’est cette force communautaire qui a fait en sorte que Google a migré les données de Freebase vers Wikidata. Voir Pellissier et al. (2016).↩︎. Une telle centralisation, visant les catalogues de données ouvertes des gouvernements, n’a pas été, à notre connaissance, explorée dans la littérature scientifique (Mora-Cantallops, Sánchez-Alonso, et García-Barriocanal 2019).

Comment une telle centralisation pourrait-elle concrètement s’effectuer ? Nous identifions les premiers jalons pour progresser dans cette direction, nous listons également une série d’avantages et d’enjeux pour cette solution. Nous prenons en exemple un jeu de métadonnées du gouvernement du Canada qui a déjà été versé dans Wikidata. En nous inspirant de ce cas réel et récent, nous explorons la possibilité et la faisabilité d’ajouter d’autres métadonnées provenant de catalogues de données ouvertes.

Gouvernement ouvert, données ouvertes

Les principes de la loi de Moore, selon laquelle la puissance des puces informatiques double tous les deux ans, s’appliquent également aux volumes de données informatiques.

Devant ces défis, les gouvernements se tournent vers l’infonuagique, en amenant l’usager où se trouvent les données, plutôt que l’inverseVoir, par exemple, les plateformes DIAS, financées par la Commission européenne, et le projet Digital Earth Australia, du gouvernement australien, qui offre des espaces infonuagiques pour manipuler et afficher des données satellites.↩︎.

En parallèle, plusieurs administrations publiques s’inscrivent dans le mouvement de gouvernement ouvertIl existe plusieurs définitions de gouvernement ouvert. Celle du gouvernement du Canada est la suivante : « Une culture de gouvernance reposant sur la philosophie que le public doit avoir le droit d’accéder aux documents et délibérations du gouvernement afin d’accroître la transparence, la responsabilisation et la mobilisation » (Gouvernement du Canada 2014).↩︎ (Estermann 2018). Le gouvernement du Canada lance dès 2011 son premier plan d’action pour un gouvernement ouvert. Il compte parmi les premiers adhérents au Partenariat pour un gouvernement ouvert (PGO), un partenariat multilatéral entériné en 2011. En date de juin 2024, 75 pays et 150 gouvernements locaux – représentant plus de deux milliards de personnes – ainsi que des milliers d’organisations de la société civile sont membres du PGO. On peut parler d’un mouvement mondial.

Le premier axe développé lors de la mise en place des gouvernements ouverts est l’accès aux données, communément appelées données ouvertesLes données ouvertes sont des « données brutes non nominatives et libres de droits, produites ou recueillies par un organisme public ou privé, qui sont accessibles aux citoyens par Internet » (Grand dictionnaire terminologique 2013).↩︎.

Multitude de portails de données des administrations publiques

Les données ouvertes des administrations publiques sont habituellement regroupées et rendues disponibles sous un portail unique. Elles sont répertoriées dans un catalogue qu’il est possible de consulter grâce à une nomenclature et à des outils de recherche spécifiques au site Internet (Tygel et al. 2016). Le gouvernement du Canada présente son catalogue de données ouvertes sur son site Internet, où l’on peut faire des recherches parmi les quelque 40 000 métadonnées disponibles.

Chaque portail gouvernemental propose des outils pour identifier, et parfois visualiser, des jeux de données. Ceux-ci sont souvent regroupés par thématiques comme par exemple la santé, la culture ou la technologie (Tygel et al. 2016).

Les portails gouvernementaux regroupent parfois les descriptions de jeux de données de plusieurs administrationsLe répertoire du gouvernement du Canada, par exemple, inclut les données du gouvernement de l’Alberta. Celui du gouvernement du Québec affiche celles des administrations municipales sur son territoire.↩︎. Rien qu’au Canada, on décompte au minimum 66 portails de données ouvertes différents.

En plus de souffrir du manque d’uniformité de l’interface, des fonctionnalités et des catégories, plusieurs de ces portails ne sont disponibles qu’en langue anglaise, limitant la découvrabilité et l’accès aux données pour les personnes ne maîtrisant pas cette langue.

Pour trouver un jeu de données spécifique à chacun des gouvernements, un usager doit donc découvrir les portails, se familiariser avec les outils de recherche, identifier le jeu de données en question, et ce seulement s’il maîtrise la langue anglaise. Bien que l’ouverture des données soit un pas dans la bonne direction pour le gouvernement ouvert, force est de constater que l’existence d’une multitude de portails crée des silos restreignant l’accès aux données.

Centralisation des métadonnées sur Wikidata

En 2003, deux ans après la naissance de Wikipédia, la Fondation Wikimédia est créée. Son but : financer le soutien technique de l’encyclopédie libre. Progressivement, plusieurs projets s’y greffent, toujours dans l’objectif de rendre les connaissances accessibles à toutes et à tous (Yoakim 2020).

Lancée en 2012 par le chapitre allemand de la Fondation WikimédiaWikimedia Deutschland. Dans Wikimedia.↩︎, Wikidata est une base de connaissances libre, multilingue, éditée de manière collaborative, qui permet de répondre à des requêtes complexes et s’inscrit dans un contexte de données liées, à la base du Web sémantique. Son contenu est placé sous la licence libre Creative Commons Zero (CC0)La licence CC0 (Creative Commons Zero) est une licence libre Creative Commons permettant au titulaire de droits d’auteur de renoncer au maximum à ceux-ci dans la limite des lois applicables, afin de placer son œuvre au plus près du domaine public.↩︎ favorisant la libre réutilisation des connaissances et des informations qu’elle contient.

En juin 2024, plus de 10 ans après sa création, Wikidata comporte plus de 110 millions d’éléments et plus de 23 000 utilisateurs et utilisatrices actifs. Ses données peuvent être visualisées au moyen de 50 outils externesLa liste des outils peut être consultée sur la page : Wikidata:Tools/Visualize data. Dans Wikidata.↩︎. Plus de 500 articles ont été publiés à propos de WikidataListe complète ici. Voir également Farda-Sarbas et Müller-Birn (2019).↩︎.

Plusieurs ensembles de données ouvertes ont été intégrés dans Wikidata, dont celles de Wikipédia, toutes langues confondues. Wikidata est propice à la centralisation des données ouvertes gouvernementales, en raison notamment de ses capacités de Web sémantique (Ajose-Ismail et Osanyin 2019).

Ces capacités sont d’autant plus intéressantes que l’on trouve dans Wikidata des informations autant sur les entités territoriales administratives (1,9 million d’entrées) que sur les composés chimiques (1,2 million), ou sur les voies de communication (630 000 entrées), par exemple. Les métadonnées des publications scientifiques composent quant à elles plus de 30 % des entrées avec 22,6 millions de fiches descriptivesWikidata: Statistiques. Dans Wikidata.↩︎.

En plus d’offrir l’ajout de données structurées à l’aide de script, Wikidata propose un protocole (SPARQL) pour rechercher, ajouter, modifier ou supprimer des données.

Figure 6.1 - Résultat extrait de Wikidata à l’aide d’une requête SPARQL en juin 2024 : villes ayant une femme maire présentement en fonction. La bulle est proportionnelle à la population de la ville.

Wikidata est une infrastructure solide qui, comme le démontre l’exemple pour les articles scientifiques, est en mesure d’absorber des millions de métadonnées.

Exemple du Service météorologique du Canada

L’échange de données météorologiques est historiquement un domaine où la collaboration entre les pays et les scientifiques a toujours prédominé. En effet, une prévision météorologique de plus de 48 heures doit ingérer des données provenant de partout sur la Terre. Et comme cela est vrai pour tous les endroits, cela favorise l’échange des données entre pays, car tous ont besoin de données pour effectuer une prévision sur leur territoire. Même au cœur de la guerre froide, les données météorologiques circulaient entre les pays du bloc de l’Est et du bloc de l’Ouest (Zillman 2019). C’est notamment pour cette raison que ce secteur de connaissance est particulièrement bien adapté à l’idéal du partage de la connaissance de la Fondation Wikimédia.

En 2019, le Service météorologique du Canada accorde un financement à Wikimédia Canada pour téléverser les données d’observation et les métadonnées des stations météorologiques dans l’écosystème de la Fondation WikimédiaUn essai a également été fait avec des données financières de municipalités autrichiennes (Krabina et Polleres 2021).↩︎. Ces données ont été téléversées respectivement dans Wikimedia Commons et dans Wikidata (voir la figure 6.2). Les métadonnées incluent un lien vers les données de la station météorologique correspondante dans Commons. Les métadonnées des stations météorologiques du Canada s’ajoutent à celles de 12 autres pays ayant plus de 10 stations dans WikidataVoici la requête SPARQL permettant de générer la liste des pays avec plus de 10 stations météorologiques dans Wikidata.↩︎.

Il devient possible d’utiliser les outils et d’exploiter les différentes capacités de calculs et de requêtes de Wikidata. On peut ainsi croiser les métadonnées des stations entre elles, et créer ensuite des catégories de stations par altitude. On peut également croiser les métadonnées avec d’autres informations déjà présentes dans Wikidata et, par exemple, identifier les stations météorologiques du Québec situées dans un rayon de 1 kilomètre d’un pont d’une longueur supérieure à 100 mètres. L’information sur les ponts existait déjà dans Wikidata lors de l’import des métadonnées des stations. Ces quelques exemples illustrent la puissance des outils de recherche de Wikidata.

Figure 6.2 - Carte des stations météo du Service météorologique du Canada existantes ou ayant déjà existé, groupées par palier de 500 mètres d’altitude (une couleur différente pour chaque palier)

À l’été 2021, en lien avec ce projet, Wikimédia Canada et l’Acfas ont accueilli deux stagiaires boursiers IVADO du programme Des données pour raconter.

Deux articles sont issus du travail collaboratif entre Laurence Taschereau (UQAM, journalisme) et Ali Akbar Sabzi Dizajyekan (Polytechnique Montréal, visualisation de données) sur les données météorologiques. Leur travail permet de sensibiliser le grand public aux effets des changements climatiques sur la population. Le premier article traite de résilience agricole (2021b) et le deuxième porte sur les îlots de chaleur (2021a).

Wikimédia Canada et l’Organisation météorologique mondiale (OMM) réfléchissent ensemble à la façon de téléverser l’entièreté des métadonnées des stations météorologiques enregistrées à l’OMM dans Wikidata. Des échanges ont également lieu avec des usagers du Cameroun et du Nigéria, pays où les capacités d’infrastructure informatique sont moins développées, afin de créer des produits d’analyses météorologiques.

Première phase à considérer pour un import dans Wikidata : le ciblage des métadonnées et la standardisation

Chaque gouvernement ouvert suit une certaine standardisation pour décrire ses jeux de données. Les informations regroupent souvent, mais sans s’y limiter, la licence, l’entité (ministère) responsable du jeu de données, l’URL pour télécharger les données et la date de la dernière mise à jour. L’Open Data Charter travaille à établir une charte internationale des données ouvertes, qui couvre notamment l’interopérabilité afin que les données puissent être comparées et croisées, peu importe la source d’origine.

L’objectif est de convertir les métadonnées des catalogues, standardisées localement, en une forme qui correspond à ce que l’on retrouve dans WikidataCertains logiciels libres ont été conçus pour héberger les catalogues de données ouvertes (Socrata, CKAN). Plus de 250 organisations publient leurs données à l’aide de ces logiciels qui utilisent des standards de métadonnées tels DCAT ou ceux rédigés par le groupe de travail du W3C Government Linked Data (GLD) (Neumaier, Umbrich, et Polleres 2016; Tygel et al. 2016). Cependant, aucun de ceux-ci n’a de retranscription directe dans Wikidata.↩︎. Certaines métadonnées se prêtent mieux que d’autres à un import dans Wikidata, car elles adoptent une standardisation internationale, en plus d’une standardisation locale. Les convertir dans un format commun dans Wikidata est donc moins complexe.

Tout standard international est appuyé par une communauté composée d’usagers et de contributeurs ou contributrices susceptibles de participer au projet d’adaptation du catalogue pour l’import dans Wikidata. En plus des données météorologiques citées plus haut, qui correspondent à ce critère, les données géoréférencées sont un autre exemple de données standardisées. Ces métadonnées incluent celles décrivant les zones administratives (politiques et de recensement) ainsi que les routes pour différents moyens de transport.

Rassemblées, ces métadonnées pourraient favoriser le déploiement d’une foule d’applications à l’échelle mondiale, ce qui est présentement impossible sans un fastidieux travail manuel.

Avantages de la centralisation des catalogues de données ouvertesHitz-Gamper et ses coauteurs (2019) ont également dressé une liste des avantages et inconvénients, mais dans un cadre plus général, parlant plutôt de données liées gouvernementales au sens large. Nous nous attardons ici au cas spécifique de Wikidata.↩︎

Endroit unique pour accéder aux métadonnées

Les gouvernements ouverts ont centralisé les données de leurs ministères et organismes sous un portail unique imposant une uniformisation des métadonnées des jeux de données, comme expliqué précédemment. La centralisation sur WikidataBien que le Web sémantique ait été élaboré pour fonctionner de manière décentralisée, les défis de nomenclature entre les bases de données demeurent (Ajose-Ismail et Osanyin 2019) et l’harmonisation pourrait être effectuée dans Wikidata.↩︎ est le simple prolongement de ce principe : créer un endroit unique où se trouvent non pas un catalogue, mais tous les catalogues des gouvernements ouverts, les rendant accessibles aux citoyens et aux citoyennes du monde entier.

Bonification d’une capacité existante

La copie des métadonnées sur Wikidata ne vise pas à remplacer les différents portails de données ouvertes des gouvernements. Il s’agit d’un ajout de capacité aux portails existants. Wikidata ne doit pas devenir un point de défaillance uniqueUn point de défaillance unique (single point of failure [SPOF] en anglais) est un point d’un système informatique dont le reste du système est dépendant et dont une panne entraîne l’arrêt complet du système.↩︎ en étant le dépôt officiel des métadonnées. Les gouvernements doivent idéalement conserver une copie, faisant autorité, de leurs métadonnées.

Les gouvernements demeurent responsables des données ouvertes qui resteraient sur le serveur informatique d’origine. Ceci permet d’effectuer des mesures de performance et de bénéficier des mesures de contrôle habituelles. Wikidata, tout comme Wikipédia, requiert de citer les sources des informationsHelp:Sources. Dans Wikidata.↩︎. Cette fonctionnalité préserve le lien entre la copie sur Wikidata et la source gouvernementale originale.

Les métadonnées, une fois recopiées dans Wikidata, bénéficient d’un plus grand rayonnement en étant décrites à plus d’un endroit sur Internet, où sont colocalisées les métadonnées d’autres gouvernements.

Surveillance et révision des métadonnées

Le principe du wiki est de conserver chaque version des documents et de rendre possibles la visualisation et la surveillance des changements. Wikidata applique ce principe. La personne responsable des métadonnées peut ainsi avoir dans sa liste de surveillance associée à son compte Wikidata toutes les entrées correspondant à un catalogue. Elle peut être avisée immédiatement par courriel de toute modification et, le cas échéant, la réviser. Les wikis permettent donc à n’importe qui de contribuer, mais toutes les modifications peuvent faire l’objet d’un contrôle.

Dans le cadre de l’import des données d’observations météorologiques du Service météorologique du Canada, aucune modification inutile ni vandalisme n’ont été constatés depuis cinq ans. En fait, les dépositaires des données ont plutôt été avisés d’erreurs dans les données, leur offrant ainsi la possibilité de les corriger.

Information multilingue et standardisée

L’interface de Wikidata est disponible en plus de 300 langues, chacune bénéficiant d’une communauté qui discute des termes à utiliser pour décrire les entrées encyclopédiques. Ceci constitue plus qu’une traduction, comme en témoigne le déploiement de l’interface en langue atikamekw, qui a impliqué la communauté et les gardiens de la langue atikamekw afin de choisir ou de créer de nouveaux mots (Casemajor, Béland, et Rochon 2017). En plus de l’interface, les éléments eux-mêmes peuvent être traduits en plus de 300 langues. Les métadonnées du libellé « stations météorologiques » peuvent, par exemple, être vues en arabe (محطة رصد جوي) ou en biélorusse (метэаралагічная станцыя).

L’utilisation de noms alternatifs (alias) pour désigner les éléments dans chacune des langues est une fonctionnalité qui distingue Wikidata de Wikipédia. Cette caractéristique permet de réconcilier des nomenclatures différentes dans la gestion des étiquettes, évitant un problème identifié dans d’autres bases de données ouvertes (Tygel et al. 2016).

Le multilinguisme de Wikidata est vu comme une valeur ajoutée pour les organisations qui souhaitent y partager leurs données (Evans 2024). L’interface multilingue de Wikidata constitue un avantage considérable par rapport aux portails des gouvernements ouverts, habituellement disponibles dans une langue seulement (deux dans le cas du Canada). Cela favorise en outre la collaboration entre les gens qui ne possèdent pas de langue commune. Les locuteurs des différentes langues du monde peuvent chercher et utiliser les jeux de données de leur choix en utilisant une interface dans leur langue.

Figure 6.3 - Capture d’écran montrant 4 des 74 langues pour lesquelles le libellé « station météorologique » a été traduit

Infrastructure infonuagique et communauté déjà en place

Wikidata est une base de données disponible sur une infrastructure fiable, financée et gérée par la Fondation Wikimédia. La plateforme fait l’objet d’une surveillance régulière et les capacités sont augmentées en fonction des besoins, incluant l’intégration de nouvelles technologies. Les gouvernements désirant apporter leur contribution avec leurs métadonnées bénéficient ainsi de serveurs déjà existants et les usagers, d’un accès gratuit aux données.

Bien qu’il soit difficile d’évaluer combien d’éléments contiendrait Wikidata si des gouvernements ajoutaient leurs métadonnées – à titre d’exemple, le gouvernement du Canada dispose de 40 000 entrées dans son catalogue de données ouvertes – il est raisonnable de penser que l’infrastructure serait en mesure de tolérer ces imports massifs. À des fins de comparaison, le nombre d’entrées dans Wikidata pour les articles scientifiques est supérieur à 22 millions. Le dialogue avec la communauté Wikidata demeure impératif afin de prévenir une levée de boucliers à la suite d’un import massif d’éléments. Le caractère incrémental du processus laissera de la place à la négociation afin de satisfaire la communauté.

Figure 6.4 - Carte des stations météorologiques du Service météorologique du Canada localisées sur le territoire du Québec, dans un rayon de 1 kilomètre d’un pont qui a une longueur supérieure à 100 mètres, générée grâce à une requête SPARQL

Les résultats des requêtes des usagers dans Wikidata peuvent être visualisés de plusieurs manières : dans des tableaux, dans des graphiques ou sur des cartes. L’exportation des résultats sous différents formats est possible de même que la réutilisation des données dans d’autres systèmes.

Enfin, il existe plusieurs applications externes pour effectuer des recherches ou des calculs dans Wikidata. Une page répertorie ces applicationsWikidata:Tools/Visualize data.↩︎, qui fonctionnent souvent par champ thématique. Il est possible de développer des outils spécifiques aux métadonnées des gouvernements ouverts.

Défis de la centralisation

Correspondance des informations, transfert de données et mises à jour

La première étape pour copier des métadonnées dans Wikidata, et potentiellement la plus importante, consiste à créer une correspondance entre la typologie des catalogues de données ouvertes et leur représentation dans Wikidata. Ceci nécessite une connaissance et une maîtrise du contenu des catalogues et de Wikidata. Une telle tâche requiert des ressources humaines et du temps, et peut s’étendre à la création de propriétés dans Wikidata en collaboration avec la communautéVoir, par exemple, la proposition pour un identifiant unique pour le Service météorologique du Canada (SMC), ou de façon plus générale le processus de proposition de propriété de Wikidata.↩︎.

Une fois les correspondances créées, on téléverse les métadonnées dans Wikidata, idéalement à l’aide de scripts automatisés. Cette tâche nécessite des connaissances en programmation, un élément clé pour brancher un catalogue à Wikidata.

Lorsque le catalogue est mis à jour du côté du portail gouvernemental, il faut assurer la synchronisation des informations dans Wikidata, et donc téléverser les métadonnées ajoutées ou modifiées. Ceci peut se faire à intervalle régulier (toutes les semaines, mois ou années), ou au besoin. Inversement, un mécanisme de rétroaction doit être mis en place afin de communiquer les changements effectués dans Wikidata aux responsables des métadonnées gouvernementales. La communauté peut déceler des erreurs ou des incongruences dans les métadonnées lors de leur utilisation (Krabina 2023). Le système de suivi des éléments, déjà présent sur Wikidata et mentionné précédemment, peut être utilisé pour effectuer cette rétroaction.

La clé de voûte de l’import massif de données gouvernementales dans Wikidata est donc la communication régulière entre la communauté et ses homologues gouvernementaux. L’idéal est d’obtenir le soutien d’une communauté de pratique avec laquelle établir des liens de confiance. Le code source des scripts devrait être libre pour partager les meilleures pratiques.

Soutien aux usagers

Un plus grand partage de métadonnées pourrait amener un plus grand nombre d’usagers à utiliser les données ouvertes. C’est d’ailleurs l’objectif ultime. Le revers de la médaille d’une augmentation de popularité est l’augmentation de la demande de soutien technique aux usagers, demande à laquelle les gouvernements devraient en théorie répondre par des outils adéquats.

SPARQL ou l’art de la requête

Le langage de requête dans Wikidata, nommé SPARQL, demande un niveau d’expertise avancé pour être utilisé à son plein potentiel et pour qu’on réussisse à identifier les informations recherchées. Bien que des efforts soient déployés pour simplifier l’interface, notamment grâce à l’outil en ligne de construction de requête pour Wikidata (Wikidata Query Builder), il est nécessaire de posséder des compétences spécifiques en programmation informatique pour rédiger des requêtes complexes. Ceci dit, il est possible de demander de l’aide à la communauté d’utilisateurs et d’utilisatrices qui possèdent ces connaissances, mais il peut s’écouler plusieurs semaines avant d’obtenir une réponse.

Figure 6.5 - Exemple de code SPARQL utilisé pour effectuer une requête complexe. Cette syntaxe permet d’identifier les stations météorologiques du Québec créées avant 1920

Pour pouvoir recouper les métadonnées des catalogues de données ouvertes avec d’autres données dans Wikidata, les responsables des métadonnées doivent mettre au point une documentation incluant notamment des exemples typiques de requêtes SPARQL. Cette documentation peut être hébergée directement dans Wikidata.

Les outils d’intelligence artificielle génératifs, comme ChatGPT, ont grandement aidé à démocratiser la rédaction de requêtes SPARQL. En posant une question en langage naturel, l’outil traduit cette question en code SPARQL adapté pour Wikidata. Cela permet aux utilisateurs, même sans compétences avancées en programmation, d’accéder facilement aux données recherchées et de tirer pleinement parti des capacités de Wikidata (Lubiana 2023).

Afin d’optimiser l’expérience utilisateur, des outils sur mesure peuvent être créés dans l’écosystème de la Fondation Wikimédia ou ailleurs sur le Web. Les usagers bénéficient alors d’une interface intuitive et plus facile à utiliser que la formulation d’une requête sous forme de code.

Licence des métadonnées

Le contenu de Wikidata est placé sous la licence CC0, sous laquelle les propriétaires renoncent à leurs droits d’auteur au maximum permis par la loi, pour se rapprocher des caractéristiques du domaine public.

Les gouvernements qui téléversent les métadonnées dans Wikidata doivent renoncer à leurs droits d’auteur. Ceci ne devrait pas, en principe, être un enjeu, car il est question de la description des jeux de données, et non des données en elles-mêmes. Les métadonnées représentent une description factuelle d’information plutôt qu’une plus-value reliée à la création des données. Il y a souvent peu de valeur ajoutée dans ces informations. Cependant, des embûches administratives sont à prévoir selon les législationsAu Canada, les productions des gouvernements sont soumises au droit d’auteur de la Couronne et pourraient être soumises à un régime particulier. Voir pour plus d’information.↩︎.

Absence de catégories standardisées

La plupart des portails de données ouvertes présentent les jeux de données par thématiques. Pourtant, il n’existe pas de catégorisation standardisée (Pellissier Tanon et Kaffee 2018). À cette absence d’uniformité conceptuelle s’ajoute le problème de leur traduction dans différentes langues (Farda-Sarbas et Müller-Birn 2019; Pellissier Tanon et Kaffee 2018).

Les métadonnées doivent être classées selon des propriétés spécifiques à WikidataIl y a plus de 9 000 propriétés dans Wikidata. La liste complète est disponible en ligne.↩︎. Cet effort de classification soulève des défis de nomenclature, de logique et d’ontologie. On peut travailler en collaboration avec une communauté de champs d’intérêt pour tenter de répondre à ces questions et pour faire évoluer les réflexions. Il existe, par exemple, une communauté s’intéressant aux arts de la scène qui pourrait répondre aux questions reliées au milieu culturelWikidata:WikiProject Arts de la scène.↩︎.

Granularité

Dans la gestion de métadonnées, la question du niveau de granularité est omniprésente. À quel niveau doit-on représenter les jeux de données ? Par regroupement en utilisant le plus bas niveau d’abstraction possible ou, au contraire, en allant au plus haut niveau de granularité possible ? Les solutions mitoyennes sont également valables.

Pour reprendre l’exemple des stations météorologiques, doit-on publier une seule métadonnée, contenant les quelque 8 000 stations répertoriées, ou au contraire une entrée par station ? Les deux ? La différence de volume de métadonnées à entrer, dans ce cas, est de plusieurs ordres de grandeur.

Un des avantages liés au plus haut niveau de granularité des métadonnées est l’utilisation des outils de Wikidata à leur plein potentiel dans l’identification des données. Cela exige un travail d’envergure pour établir la correspondance des métadonnées entre le catalogue des gouvernements et Wikidata.

Il serait surprenant qu’une règle générale puisse être identifiée. Les propriétaires des métadonnées doivent effectuer des choix. À l’instar de la catégorisation, cette tâche pourrait se faire en consultation avec la communauté de champs d’intérêt, lorsque celle-ci existe.

Conclusion

L’intérêt initial pour le projet des métadonnées météorologiques a été surprenant. Nous avons été contactés par des organisations gouvernementales ou paragouvernementales, et des institutions de la société civile intéressées par la connaissance libre (bibliothèques, OBNL, entreprises privées). Cet intérêt grandissant nous a encouragés à étendre la réflexion à d’autres jeux de données, car les principes sous-jacents à l’import massif et à la diffusion des données météorologiques peuvent s’y appliquer.

La notoriété de Wikipédia et des autres projets de la Fondation Wikimédia favorise la compréhension et l’acceptation par les responsables étatiques. L’attrait de l’utilisation de ressources informatiques déjà existantes est un atout, ressources dont les méthodes d’accès, de recherche et de diffusion sont reconnues par les administrations publiques et les utilisateurs de données ouvertes en général.

Une telle infrastructure facilite en outre la collaboration entre différents paliers de gouvernement, ou encore entre les États, car les questions de coûts d’infrastructure et, surtout, de politique de gestion et de financement de cette infrastructure sont entre les mains d’un tiers : la Fondation Wikimédia. Il ne reste alors pour les gouvernements qu’à investir le capital humain nécessaire pour utiliser cette infrastructure, et bien sûr répondre aux incontournables questions ontologiques.

Nous avons esquissé un portrait des avantages et des défis liés à une centralisation des métadonnées dans Wikidata. La prochaine étape sera d’identifier les métadonnées dont la mise en commun pourrait bénéficier à toute la société. Il s’agira ensuite de s’investir à plus long terme pour explorer et baliser le sentier conduisant à une plus grande diffusion des données ouvertes.

Les enjeux de découvrabilité sont les principaux freins à la diffusion des données ouvertes. Investir dans de nouvelles solutions et se joindre à une communauté ou à des projets déjà existants sont des actions en accord avec les valeurs à la base du mouvement de démocratie ouverte. Il ne reste qu’à effectuer le deuxième pas.

Les outils d’IA générative, tels que ChatGPT, vont aider à explorer les données pour répondre à diverses questions. Cependant, pour que ces outils soient réellement efficaces, il est indispensable que les informations de base soient accessibles. Il est crucial que ces données soient fiables et sourcées afin d’assurer que les réponses fournies ne reposent pas uniquement sur des inférences statistiques, mais sur des données précises et vérifiées. Ainsi, l’accessibilité et la qualité des données sont des prérequis incontournables pour tirer pleinement parti des capacités des IA génératives dans la gestion et l’analyse des données ouvertes.

Références

Accéder à cette bibliographie sur Zotero

Ajose-Ismail, B. M., et Q. A. Osanyin. 2019. « A Semantic Approach for Facilitation Search for Discovery of Open Government Data on Open Data Portals ». In Book of Proceedings of 4th National Development Conference of The School of Pure and Applied Science, The Federal Polytechnic Ilaro, Ogun State, 2nd – 5th December, 2019, 249‑56. Book of Proceedings of 4th National Development Conference of The School of Pure; Applied Science, The Federal Polytechnic Ilaro, Ogun State,. https://eprints.federalpolyilaro.edu.ng/1645/.
Casemajor, Nathalie, Jean-Philippe Béland, et Benoît Rochon. 2017. « Comment dit-on page d’accueil? Incorporer le savoir autochtone dans Wikipedia ». Diff. https://diff.wikimedia.org/fr/2017/05/15/creer-dune-encyclopedie-atikamekw-a-partir-de-zero/.
Estermann, Beat. 2018. « Development Paths Towards Open Government – an Empirical Analysis Among Heritage Institutions ». Government Information Quarterly 35 (4): 599‑612. https://doi.org/10.1016/j.giq.2018.10.005.
Evans, Jason. 2024. « Aligning and Sharing Data With Wikidata - A Feasibility Study ». unknown. https://works.hcommons.org/records/5ym2e-bap78.
Farda-Sarbas, Mariam, et Claudia Müller-Birn. 2019. « Wikidata from a Research PerspectiveA Systematic Mapping Study of Wikidata ». arXiv. https://doi.org/10.48550/arXiv.1908.11153.
Gouvernement du Canada. 2014. « Directive sur le gouvernement ouvert ». Gouvernement du Canada. https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=28108§ion=html.
Grand dictionnaire terminologique. 2013. « Données ouvertes ». Office québécois de la langue française. https://vitrinelinguistique.oqlf.gouv.qc.ca/fiche-gdt/fiche/26519745/donnees-ouvertes.
Hitz-Gamper, Benedikt Simon, Oliver Neumann, et Matthias Stürmer. 2019. « Balancing Control, Usability and Visibility of Linked Open Government Data to Create Public Value ». International Journal of Public Sector Management 32 (5): 451‑66. https://doi.org/10.1108/IJPSM-02-2018-0062.
Krabina, Bernhard. 2023. « Building a Knowledge Graph for the History of Vienna with Semantic MediaWiki ». Journal of Web Semantics 76 (avril): 100771. https://doi.org/10.1016/j.websem.2022.100771.
Krabina, Bernhard, et A. Polleres. 2021. « Seeding Wikidata with Municipal Spending Data ». In. https://www.researchgate.net/publication/355205810_Seeding_Wikidata_with_Municipal_Spending_Data.
Lubiana, Tiago. 2023. « SPARQL Queries, GPTs and Large Language Models – Where Are We Currently? – Wisecube AIResearch Intelligence Platform ». https://www.wisecube.ai/blog/sparql-queries-gpts-and-large-language-models-where-are-we-currently/.
Mora-Cantallops, Marçal, Salvador Sánchez-Alonso, et Elena García-Barriocanal. 2019. « A Systematic Literature Review on Wikidata ». Data Technologies and Applications 53 (3): 250‑68. https://doi.org/10.1108/DTA-12-2018-0110.
Neumaier, Sebastian, Jürgen Umbrich, et Axel Polleres. 2016. « Automated Quality Assessment of Metadata Across Open Data Portals ». Journal of Data and Information Quality 8 (1): 1‑29. https://doi.org/10.1145/2964909.
Pellissier Tanon, Thomas, et Lucie-Aimée Kaffee. 2018. « Property Label Stability in Wikidata: Evolution and Convergence of Schemas in Collaborative Knowledge Bases ». In Companion of the The Web Conference 2018 on The Web Conference 2018 - WWW ’18, 1801‑3. Lyon, France: ACM Press. https://doi.org/10.1145/3184558.3191643.
Pellissier Tanon, Thomas, Denny Vrandečić, Sebastian Schaffert, Thomas Steiner, et Lydia Pintscher. 2016. « From Freebase to Wikidata: The Great Migration ». In Proceedings of the 25th International Conference on World Wide Web, 1419‑28. Montréal Québec Canada: International World Wide Web Conferences Steering Committee. https://doi.org/10.1145/2872427.2874809.
Taschereau, Laurence, et Ali Akbar Sabzi Dizajyekan. 2021a. « Des inégalités climatiques à rendre insomniaque Acfas ». Acfas Magazine, novembre. https://www.acfas.ca/publications/magazine/2021/11/inegalites-climatiques-rendre-insomniaque.
———. 2021b. « La résilience agricole se trouve à nos pieds dans le sol Acfas ». Acfas Magazine, novembre. https://www.acfas.ca/publications/magazine/2021/11/resilience-agricole-se-trouve-nos-pieds-sol.
Tygel, Alan, Soren Auer, Jeremy Debattista, Fabrizio Orlandi, et Maria Luiza Machado Campos. 2016. « Towards Cleaning-Up Open Data Portals: A Metadata Reconciliation Approach ». In 2016 IEEE Tenth International Conference on Semantic Computing (ICSC), 71‑78. Laguna Hills, CA, USA: IEEE. https://doi.org/10.1109/ICSC.2016.54.
Yoakim, William. 2020. « Wikipédia, Wikimedia Commons et Wikisource, Un Eldorado de Visibilité ». Archives 48 (2): 41‑81. https://doi.org/10.7202/1067524ar.
Zillman, J. W. 2019. « Origin, Impact and Aftermath of WMO Resolution 40 ». World Meteorological Organization, novembre. https://wmo.int/media/magazine-article/origin-impact-and-aftermath-of-wmo-resolution-40.