Expérimenter les humanités numériques Des outils individuels aux projets collectifs
  • Étienne Cavalié
  • Frédéric Clavert
  • Olivier Legendre
  • Dana Martin
Chapitre 11

Gestion des données, partage et conversation pérenne avec le Data Management Plan

  • Aurore Cartier
  • Magalie Moysan
  • Nathalie Reymonet

Chapitre uniquement disponible dans la version numérique augmentée de cet ouvrage.

Dans cette contribution, nous présentons les problématiques concrètes de la gestion et du partage des données, ainsi que les freins et leviers associés, avant de détailler les caractéristiques d’un plan de gestion des données sur la base d’un retour d’expérience de la ComUE [1] Université Sorbonne Paris Cité (USPC).

Le partage et la valorisation des données de la recherche sont devenus des enjeux importants pour les organismes financeurs, les institutions de recherche et les chercheurs eux-mêmes. Une démarche formalisée et anticipée de gestion des données constitue aujourd’hui une condition nécessaire à ce partage. Elle garantit d’une part des résultats fiables et réutilisables sur le long terme, d’autres part une compréhension, une ouverture et la possibilité d’une réutilisation de ces résultats par d’autres chercheurs. Si les politiques françaises n’en sont encore qu’au stade incitatif, de nombreuses actions montrent une accélération dans le domaine de l’ouverture et du partage des données. Bien que récente, la question des données n’est pas nouvelle. En sciences humaines et sociales (SHS), ces préoccupations font écho à diverses initiatives comme celles menées par le réseau Quételet [2] depuis le début des années 2000. Le mouvement s’amplifie au cours des années 2010 sous l’influence de l’ouverture des données administratives (Open Data), confirmée par les dispositions de la loi sur le numérique [3]. Une partie de cette dynamique vient également des éditeurs commerciaux incitant davantage les chercheurs à fournir leurs données en complément de leur publication au risque d’une appropriation — par le secteur privé — de données financées par le secteur public [4].

De nouvelles perspectives pour la recherche sont néanmoins attendues : fouille de textes (text-mining), analyse statistique, fouille sémantique etc. sur de grandes masses de données. Comme le souligne Olivier Le Deuff, la « culture numérique oblige à s’interroger pleinement sur les compétences informatiques requises notamment lors de l’implication au sein de projets qui reposent sur d’importants corpus de données à traiter [5] ». La donnée s’érige désormais en matériau et renforce par ailleurs la confusion entre donnée informationnelle, intervenant dans un processus de raisonnement et donnée informatique, champ d’information défini en vue d’un traitement automatique. Ces évolutions suscitent chez les chercheurs un certain enthousiasme mais aussi de nombreuses réserves quant au renouveau réel qui en découle pour la discipline [6]. De sorte qu’à ce jour, la gestion et l’ouverture des données de la recherche ne sont pas une nécessité admise par tous les chercheurs. Dans les faits, en dépit d’un discours institutionnel soulignant les enjeux éthiques, scientifiques [7] ou économiques [8], les initiatives se réduisent souvent à des démarches individuelles, ou se cantonnent aux domaines dans lesquels la gestion et la réutilisation de données conditionnent l’exercice même de la recherche. On pense notamment au secteur de l’astrophysique ou de la génomique [9] tandis que les sciences humaines et sociales comme d’autres restent encore en retrait [10].

Plusieurs freins sont à l’origine de cet écart entre les aspirations et la pratique. D’une part une certaine ambiguïté de la législation française quant au statut des données produites dans le cadre de la recherche publique [11] : venant en appui d’une œuvre originale de l’esprit, les données peuvent bénéficier de la protection du droit d’auteur ou de droits voisins comme ceux relatifs à la protection des bases de données [12] ou au même titre que d’autres données publiques jugées « sensibles », tomber sous la protection d’autres dispositifs juridiques (CNIL [13], défense, exception culturelle etc.). À ce cadre peuvent s’ajouter d’autres enjeux de valorisation et de transfert de technologie [14] freinant le partage et la réutilisation des données par ailleurs contraints par le durcissement des politiques d’éditeurs en matière d’ouverture et de fouille des données. Le coût des infrastructures de stockage et d’archivage sont également des obstacles. Ces structures nécessitent une planification à long terme que les modèles économiques actuels peinent à inclure. En réponse, les communautés scientifiques s’organisent autour d’infrastructures de grande ampleur recevant un soutien financier national ou européen. Le manque d’« interopérabilité [15] » des données et la multiplicité des structures de recherche françaises sont également en cause. Une enquête conduite à l’Université de Californie Los Angeles [16] met ainsi en évidence le manque de confiance des chercheurs envers les données de leurs confrères. Les scientifiques privilégient souvent les informations recueillies dans un cercle restreint, freinant ainsi l’interdisciplinarité. Les données produites par d’autres ne constituent que rarement la source principale de leur projet de recherche. Enfin, deux études successives [17] menées à l’Université du Tennessee sur plus de 1 300 chercheurs, font principalement ressortir le manque de temps (54 %), le manque de moyens financiers (40 %), l’absence ou la méconnaissance d’infrastructures correspondant (24 %), le manque de standards (20 %) ou encore l’absence d’obligation (17 %), ce qui souligne l’influence des politiques institutionnelles par rapport aux initiatives individuelles.

Un effort important d’accompagnement et de médiation reste donc à accomplir au sein des établissements de recherche pour permettre de lever progressivement ces obstacles. Nous tâcherons d’identifier les leviers susceptibles d’œuvrer en ce sens en insistant notamment, sur la base d’un retour d’expérience mené au sein de la ComUE Université Sorbonne Paris Cité, sur l’intérêt, la démarche de rédaction et la promotion des plans de gestion de données des communautés de recherche.

L’étude récente [18] de l’Institut pour Internet et la société [19] relève parmi les causes de cette évolution, l’expression de stratégies claires de la part des gouvernements, institutions ou financeurs ; la production de guides d’accompagnement et de démarches de sensibilisation adaptée aux différents groupes ; le développement et la promotion d’outils conviviaux, sont aujourd’hui les principaux leviers pointés par les chercheurs pour un partage des données. L’engagement d’organismes financeurs comme la National Science Foundation aux États-Unis ou la Commission européenne imposant pour les projets qu’elle finance, la rédaction de plan de gestion de données, marque un tournant. Les professionnels de l’information scientifique et technique (IST) constituent aujourd’hui des acteurs majeurs pour accompagner ce changement.

Le plan de gestion de données ou Data management plan (DMP) est un document unique décrivant les données produites par un projet de recherche. Il vise à formaliser les processus de gestion, d’ouverture et de préservation des données tout au long d’un projet de recherche. Il s’agit autant d’un élément d’évaluation pour le financeur que d’un outil de bonne gestion pour le chercheur. Ce nouveau livrable requis par la Commission européenne [20] est ancré dans le calendrier des projets et suit le cycle de vie des données.

Au sein de la ComUE Sorbonne Paris Cité (USPC), les professionnels de l’IST, spécialistes du partage des données (base de données, archives ouvertes), de leur description par des métadonnées normées et de leur conservation (archivage pérenne) ont été parmi les premiers à s’emparer du sujet pour accompagner les chercheurs investis de financements Horizon 2020, en partenariat avec les ingénieurs-projet du réseau recherche Europe de l’USPC. Leur implication à différents niveaux s’est traduite par des programmes de sensibilisation [21], par la rédaction de guides d’accompagnement [22] ou par la prise en main de techniques. Cependant, l’élaboration de plans de gestion de données a mis au jour la nécessité de faire émerger de nouvelles collaborations entre chercheurs et services d’appui à la recherche. Le rapprochement inédit des professionnels de l’IST et des ingénieurs-projet chargés d’accompagner les chercheurs dans le montage des projets de recherche a été une première étape dans le décloisonnement entre différents corps de métier que nécessite, au sein des établissements, la réalisation de plans de gestion de données.

Si des outils informatisés, comme DMPOnline du Digital Curation Centre [23] ou DMPTool de l’Université de Californie [24], facilitent sa rédaction, le plan de gestion des données peut également prendre la forme d’un simple tableur ou encore d’un document texte. Son calendrier répond à trois grandes phases du projet et décrit les choix réalisés par l’équipe de recherche en termes de format de données, normes de métadonnées, sécurité d’accès, durée d’archivage, ainsi que de coûts associés à la gestion des données, du début à la fin du projet, voire après son achèvement.

1. Informations sur le projet
L’ingénieur-projet dispose des renseignements administratifs permettant de faire le lien entre le DMP et le projet : nom du projet, référence de la convention de financement, nom du coordinateur du projet. Ces éléments figuraient déjà dans la réponse à l’appel à projets.

2. Responsabilité des données
Le chercheur responsable des données est désigné par l’équipe dès le début et pour toute la durée du projet. Il est choisi pour sa vision transversale du projet sur tous les types de données à la fois. C’est lui qui assure la coordination de la rédaction du DMP : il est responsable de la création et de la mise à jour du DMP, ainsi que de sa mise en œuvre. Il peut être différent du coordinateur scientifique. L’ingénieur-projet, ou le juriste, indique le régime de la propriété intellectuelle des données liées au projet, élément primordial pour l’exploitation ultérieure des données. La propriété des données est fixée par l’accord de consortium définissant le rôle des partenaires du projet. Il fait en particulier la distinction entre les résultats propres à une équipe et les résultats communs à tous les partenaires du projet.

3. Ressources nécessaires à la mise en œuvre du DMP
Le chercheur, accompagné de l’ingénieur-projet, évalue les ressources nécessaires et les montants financiers correspondants :

  • Matériel. Le chercheur, s’il en a l’expérience, ou un informaticien, estiment les espaces de stockage de données informatiques nécessaires au cours du projet, ainsi que le coût de l’hébergement sur une plate-forme d’archivage à l’issue du projet. Les espaces à prévoir pour d’autres supports (papier, objets) sont également évalués.
  • Personnel. Le chercheur et l’ingénieur-projet estiment le temps et les compétences requis à la mise en œuvre du DMP et le coût correspondant à la gestion, la curation et la conservation à long terme des données. La notion de curation recouvre les diverses opérations de traitement des données : sélection, nettoyage, normalisation et enrichissement. Pour cela, des formations, dont le coût est également à prévoir, peuvent être nécessaires.

4. Description des jeux de données
Selon le projet, un jeu de données peut recouvrir des réalités différentes. Un ou plusieurs jeux de données peuvent être liés au projet de recherche, et désigner soit un lot techniquement homogène, soit un ensemble intellectuellement cohérent mais composé de lots techniquement hétérogènes. Par exemple, un jeu peut regrouper des séries chronologiques portant sur une même période mais sur des objets de natures différentes. Le chercheur est le plus à même de décrire le jeu de données jeuN utilisé dans le cadre du projet. Après avoir identifié le ou les jeux de données, il précise la nature des données : données d’enquête, échantillons, code logiciel, corpus de texte, photographies, etc. Il indique la méthode de production ou d’élaboration des données utilisées (instrument de mesure, enquête, observation, simulation) et précise s’il s’agit de données produites au cours du projet, d’une réutilisation de données préexistantes, ou des deux. Le chercheur renseigne les formats de données, numériques (tel que CSV), ou non-numériques (papier imprimé, VHS). Il est conseillé de privilégier des formats ouverts ou largement utilisés, tels que XML ou PNG, afin de faciliter le partage.

5. Stockage, accès et sécurité du jeuN au cours du projet
Le chercheur décrit le support des données : support papier ou autre support physique. Dans le cas de données numériques, un informaticien peut conseiller le chercheur. Il prévoit la volumétrie approximative des données en mètres linéaires ou en mégaoctets. Celle-ci sera réévaluée au cours du projet. Il décrit le type d’hébergement des données : matériel et lieu physique de stockage. Le chercheur, avec l’aide d’un informaticien, indique les risques par rapport à la sécurité des données, tels que l’atteinte aux exigences de confidentialité, à la disponibilité et à l’intégrité des données tout au long de la phase active du projet. Un référentiel de menaces est disponible dans la méthode EBIOS [25].

6. Métadonnées : documentation et organisation du jeuN
Le chercheur, accompagné de son référent en IST (archiviste, bibliothécaire, ou documentaliste), précise comment seront décrites, avec des métadonnées, les données numériques utilisées au cours du projet. Les métadonnées sont classiquement divisées en métadonnées descriptives, administratives et métadonnées de structure. Le chercheur renseigne les normes de métadonnées utilisées : certaines disciplines s’appuient sur des standards qui leur sont propres, qui doivent être utilisés en priorité pour assurer l’interopérabilité entre les différents systèmes et utilisateurs. En SHS, il pourra s’agir de DDI (Data Documentation Initiative [26]) ou du Dublin Core [27]. Le répertoire du Digital Curation Centre [28] liste les formats disciplinaires existants en SHS. En France, Catherine Morel-Pair propose un panorama des standards et usages de métadonnées pour les plate-formes de données en SHS [29]. Le chercheur indique qui renseignera les métadonnées et le cas échéant, à l’aide de quels outils (Dublin Core Generator [30] ou DataCite Metadata Generator tool [31]). Le chercheur prévoit une arborescence de classement des données et des règles de nommage des jeux de données afin d’en faciliter l’accès et le stockage au cours du projet, et à terme l’archivage. Par exemple, les fichiers sont nommés selon la syntaxe . Il précise s’il existe une documentation associée pour assurer l’intelligibilité à long terme des données (codes, abréviations, version des logiciels de lecture).

7. Dissémination à l’issue du projet
Dans le cas d’une recherche sur appel à projets, un contrat lie le financeur et le bénéficiaire et précise le principe général de diffusion qui s’applique aux données produites. Par exemple, dans le cadre de Horizon 2020, l’article 29.3 de la convention de financement prévoit que les données et métadonnées nécessaires à la validation des résultats doivent être déposées dans des entrepôts dédiés et placées sous une licence libre autorisant leur exploitation et leur libre réutilisation par une tierce partie [32]. Cette information est disponible auprès de l’ingénieur-projet. Le chercheur détermine les conditions de partage et de réutilisation des données ainsi que la licence, qui peut être libre comme Etalab [33] ou GNU [34], ou faire l’objet de contreparties économiques précisées par contrat. Si un accès aux données via un site n’est pas prévu dans le cadre du projet, il convient de rechercher une base de données disciplinaire dans laquelle les données pourront être déposées, comme par exemple Speech and Language Data Repository pour les données orales et/ou linguistiques [35]. Le répertoire d’entrepôts re3data [36] permet de s’orienter parmi les différentes possibilités. Pour des raisons éthiques, juridiques ou financières, les données sensibles peuvent nécessiter une protection spécifique et à ce titre échapper au principe général de diffusion. Le chercheur, accompagné de son service juridique, identifie et définit les critères de protection des données potentiellement sensibles (nominatives, stratégiques, rares). Il indique aussi la durée de l’embargo qu’il appliquera avant la diffusion des données. L’embargo est une protection temporaire qui instaure un délai de plusieurs mois ou années avant la diffusion des données avec l’autorisation du propriétaire. À la fin du projet, le chercheur précise s’il existe des publications associées aux données.

8. Sélection et archivage des données
Le chercheur prévoit également, avec l’appui de son archiviste, le sort des données à l’issue du projet, qu’elles aient été diffusées ou non. Ils sélectionnent les données en raison de leur valeur scientifique, juridique ou patrimoniale, car toutes n’ont pas vocation à être archivées sur le long terme. L’administration des archives délivre un visa avant toute destruction de données. Par exemple, les données non reproductibles seront conservées, tout comme celles dont le coût de production est extrêmement élevé. Les durées de conservation doivent prendre en compte les exigences légales et réglementaires existantes et peuvent aller de quelques mois à l’éternité. Ainsi, le décret 2006-6 du 4 janvier 2006 fixe la conservation des données de patients à 20 ans minimum [37]. Le chercheur évalue le volume final des données, par exemple : N Giga-octets. Conseillé par son archiviste, il choisit la plate-forme d’archivage pérenne sur laquelle les données seront archivées à long terme. Certaines universités disposent de conventions avec des plate-formes, qui doivent être agréées par le Ministère de la Culture.

Exemple d’un plan de gestion de données

L’exemple ci-dessous est issu d’un projet réel. Certains ajustements ont néanmoins été réalisés à des fins de diffusion.

Présentation du projet
Depuis mars 2011, le Centre de données socio-politiques (CDSP [38]) est fortement impliqué dans la mise en place de l’équipement d’excellence DIME‐SHS [39], lauréat de l’appel à projets 2010 des « investissements d’avenir ». Cet équipement vise à doter la France d’une nouvelle structure en matière de collecte, d’enrichissement et de diffusion des données quantitatives, qualitatives et web. En particulier, il s’agit de mettre en place le panel Internet ELIPSS (Étude longitudinale par Internet pour les sciences sociales) constitué à partir d’un échantillon aléatoire de la population résidant en France [40]. Les propositions d’enquête se font lors d’appels à projets. Ce sont les membres du Comité scientifique et technique (CST) qui sont chargés de sélectionner les enquêtes administrées aux panélistes.

EN-TÊTE
Version du DMP, date
DMP version, date
V2, 2 février 2016
Date de la première version
Date of the first version
29 janvier 2016
NFORMATION SUR LE PROJET
Cette section a pour vocation de renseigner administrativement sur le projet auquel ce DMP est lié, de le présenter et de le décrire succinctement.
This section aims to provide administrative information about the project to which this DMP is linked and to present and briefly describe it.
Identifiant de l’appel à projets
Identification of the project call
DIME –SHS ELIPSS
Thématique
Topic
Sciences humaines et sociales
Référence de la convention de financement
Grant agreement number
ANR-10-EQPX-19-01
Programme de recherche
Research program
EQUIPEX - Données, Infrastructures et Méthodes d’Enquête en Sciences Humaines et Sociales
Acronyme du projet
Project acronym
ELIPSS
Titre du projet
Project title
Étude longitudinale par Internet pour les sciences sociales
Objectifs du projet
Goals of the project
ELIPSS est un panel internet, représentatif de la population française, constitué dans sa phase pilote de 1 039 personnes invitées à participer tous les mois à des recherches dans de nombreux domaines (santé, environnement, politique, sport et loisirs…). Ce projet vise à combler l’absence de moyens d’enquête par questionnaire propres à la recherche française.
L’étude pilote a débuté en 2012 afin de définir la procédure de recrutement, d’affiner la méthodologie, de mettre au point les procédures de gestion de panel et de production d’enquêtes et de développer les outils informatiques. À partir de 2016, le panel ELIPSS sera constitué de 3 500 individus.
L’enquête annuelle ELIPSS, dont il sera question dans ce DMP, a pour objectif de disposer de nombreuses variables socio-démographiques, ainsi que de variables de croisement et d’indicateurs fréquemment utilisés en sciences humaines et sociales. Le questionnaire a été construit en collaboration avec plusieurs chercheurs spécialistes des thèmes abordés En outre, les questions retenues sont très largement issues d’enquêtes existantes et une grande partie est répétée chaque année.
Mots-clefs du projet
Keywords
Sciences humaines et sociales, Panel Internet, Enquêtes quantitatives, Questionnaire
Coordinateur/Bénéficiaire
Coordinator/Recipient
Équipe ELIPSS
Responsable scientifique du projet
Project leader
Équipe ELIPSS
elips.cdsp@sciencespo.fr
Affiliation et unité de rattachement du responsable scientifique
Administrative affiliation of the project leader
Centre de données socio-politiques (CDSP), Sciences Po (IEP Paris)
RESPONSABILITÉ DES DONNÉES
Cette section vise à identifier la ou les personne(s) qui seront en charge de la mise en œuvre et de la mise à jour du DMP tout au long du projet, ainsi que la propriété intellectuelle des données liées au projet de recherche.
This section provides information about the person(s) who will be responsible for implementing and updating the DMP throughout the project, and the intellectual property of them.
Nom du responsable de la gestion des données au cours du projet de recherche
Name of the person in charge of data management during the project
Équipe ELIPSS
Propriété des données
Data property
En règle générale, les projets retenus dans le cadre des appels à projets ELIPSS font l’objet d’une convention établissant la copropriété des données entre l’équipe de recherche porteuse du projet et DIME‐SHS. Cette convention prévoit le dépôt des données au CDSP et autorise la diffusion des données à la communauté scientifique après une période d’exclusivité d’un an maximum pour l’équipe de recherche porteuse du projet.
Dans le cas de l’Enquête annuelle, que nous avons pris comme exemple, le propriétaire des données est la Fondation Nationale des Sciences Politiques (FNSP).
RESSOURCES NÉCESSAIRES À LA MISE EN ŒUVRE DU DMP
Estimez les compétences nécessaires à la mise en œuvre du DMP : gestion, curation (sélection, nettoyage, normalisation et enrichissement des données), conservation à long terme et les coûts associés.
Estimate the skills needed to implement the DMP : management, curation (selection, cleaning, normalization and data enrichment), long-term conservation and associated costs.
Matériel
Hardware
Les coûts sont intégrés dans le financement du projet ELIPSS.
Ils comprennent l’usage de plusieurs machines virtuelles sur un hyperviseur. De tels coûts sont donc très difficiles à ventiler.
Personnel
Staff
20 jours/homme sont nécessaires en moyenne pour la gestion, curation et conservation d’un jeu de données.
Les coûts sont intégrés dans le financement du projet ELIPSS et sont donc très difficiles à ventiler.
Formations
Training
Les activités d’apurement, anonymisation, normalisation et enrichissement des données font partie des activités quotidiennes des chargé(e)s d’études du CDSP, qui est l’un des trois centres français de données en sciences sociales.
Montant financier*
Costs
Les coûts sont intégrés dans le financement du projet ELIPSS.
DESCRIPTION DES DONNÉES
Selon le projet, un jeu de données peut recouvrir des réalités différentes. En effet, un ou plusieurs jeu(x) de données peuvent être lié(s) au projet de recherche, et désigner : i) un lot techniquement homogène, ou ii) un lot intellectuellement cohérent même si celui-ci est composé de lots techniquement hétérogènes.
Depending of the project, a dataset may cover different realities. In fact, a unique or multiple datasets may be linked to the research project and represent a technically uniform batch of data or an intellectually consistent one, potentially made of technically heterogeneous samples.
Nombre de jeu(x) de données
Number of datasets
Dans le cadre du panel ELIPSS on produit en moyenne une enquête par mois.
L’enquête annuelle est répétée chaque année. Trois jeux de données existent actuellement (2013, 2014, 2015). Les données de la première vague sont documentées et publiées sur le portail Quételet.
Jeux de données n°1 Cette section a pour vocation de présenter le jeu de données qui sera produit et/ou reçu dans le cadre du projet.
This section aims to generally present the type of data that will be produced and/or received in connection with the project
Identifiant et nom du jeu de données*
Reference and name of data set
fr.cdsp.elipss.ddi.2013.03.ea
Enquête annuelle – vague 1 (2013)
Nature des données*
Nature of data
Données d’enquêtes individuelles et données géographiques issues du recensement.
Réutilisation de données existantes
Reuse of existing data
Certaines informations saisies par les panélistes lors de l’enquête annuelle 2013 ont été réutilisées dans celle de 2014.
Le fichier diffusé contient des variables provenant de sources différentes. Elles sont issues :
> de l’Enquête annuelle - vague 2 (2014) ;
> du recensement de la population 2011 (type de commune d’habitation...).
S’y ajoutent les variables de pondération.
Méthode de production des données*
Method of production of data
Les données ont été recueillies par questionnaire auto-administré sur Internet, dans le cadre du panel ELIPSS. Les membres du panel sont sollicités chaque mois pour une interrogation maximale de 30 minutes au moyen d’une tablette mise à leur disposition. La conception des questionnaires et la collecte des données en ligne reposent sur le logiciel Blaise.
Formats des données* (formats originels ou de conversion)
Data standard
Les données d’enquête sont diffusées en format SPSS.
Jeu de données n°[n]
STOCKAGE, ACCÈS ET SÉCURITÉ DES DONNÉES
Cette section définit les modalités d’hébergement, de sauvegarde et d’accès aux données pendant la phase active du projet.
This section defines hosting, backup and data access during the active phase of the project.
Support des données
Medium of data
Dans le cadre du projet ELIPSS, nous n’utilisons pas de support papier ou autre support physique.
Volumétrie prévisionnelle*
Projected volume
Environ 2 Go sont nécessaires pour les enquêtes produites au cours d’une année.
Type d’hébergement
Data hosting
Machines virtuelles sur hyperviseur dédié aux données de la recherche, hébergées dans les locaux sécurisés de la DSI de Sciences Po (avec dispositif de sauvegarde).
Risques menaces ou sur les données
Risks or threats to data
Nous avons identifié plusieurs types de risques :
> Destruction accidentelle. Une fois le terrain fini, les données brutes sont sauvegardées sur un serveur BLAISE auquel trois ou quatre personnes ont accès. Ensuite, le chargé d’études les télécharge sur son poste pour la phase d’apurement, normalisation et enrichissement. Pendant cette étape et jusqu’au moment de leur diffusion, les données sont sauvegardées uniquement sur son poste de travail, ce qui, en cas de panne, pourrait signifier la perte de ces fichiers et du travail réalisé.
> Accès non autorisé. Le statisticien de l’INED, en chargé de la pondération des données et qui est présent au CDSP un jour par semaine, garde parfois ses fichiers de travail sur son ordinateur portable. Celui-ci pourrait lui être volé. Actuellement, la version diffusée des fichiers de données et de leur documentation est accessible à plusieurs membres de l’équipe ELIPSS par les moyens d’une plate-forme d’échange SAMBA. Un risque d’accès non autorisé existe.
> Dé-synchronisation des fichiers diffusés sur les différentes plate-formes de diffusion. Vu la variété des procédures de publication et des formats des fichiers : XML sur Nesstar, ZIP avec PDF et SPSS sur le portail Quételet.
Garantie de confidentialité des données
Data privacy
La déclaration du dispositif ELIPSS a été inscrite au registre CIL du CNRS sous le numéro 2‐12030 avec pour finalité du traitement la réalisation d’enquêtes à des fins de recherche. Cette déclaration décrit précisément le système d’information mis en œuvre, les moyens utilisés pour assurer la sécurité et la confidentialité des données, la procédure de gestion des enquêtes (assurée par le CDSP) et la gestion des contacts avec les panélistes (assurée à l’INED jusqu’en janvier 2015). Les données nominatives et les données d’enquêtes sont stockées dans deux systèmes d’information différents. Le traitement pour les données nominatives du panel a été enregistré au registre CIL de l’INED sous le numéro 2012‐CIL‐0012.
D’un point de vue technique, le cryptage des données et les restrictions mises en place pour contrôler l’appariement des données garantissent également la confidentialité.
Avant d’être diffusées, après une période d’exclusivité de douze mois maximum, les fichiers sont anonymisés de façon à rendre l’identification directe et indirecte impossible. Les fichiers de données sont diffusés aux équipes de recherche productrices par une plate-forme d’accès à distance sécurisée et ceux destinés à la communauté scientifique sont diffusés par le portail du Réseau Quételet.
Garantie d’intégrité et de traçabilité
Data integrity and traceability
Authentification personnelle sur les outils.
Suivi de la phase de production par plusieurs personnes.
Lecture des données*
Data reading
La lecture des données nécessite le recours à SPSS ou bien à un autre logiciel de type Stat Transfer pour convertir les données au format souhaité.
Garantie de disponibilité des données
Data availability
L’équipe ELIPSS et plus précisément la coordonnatrice de production des enquêtes ELIPSS fournit les données aux équipes de recherche porteuses des projets, une fois que la phase d’apurement et enrichissement des données est finie.
Gestion des accès*
Access procedures
Au cours du terrain, les données sont stockées sur un serveur BLAISE sécurisé auquel uniquement quelques membres de l’équipe ELIPSS ont accès par mot de passe.
Échanges et partage*
Data sharing
Les fichiers de données sont diffusés aux équipes de recherche productrices par une plate-forme d’accès à distance sécurisée. La sécurité est assurée par cryptage des fichiers système et par un accès en https. Par ailleurs, les journaux des opérations sont enregistrés quotidiennement, les liens de téléchargement sont à durée de vie courte, les dossiers à télécharger sont protégés par mot de passe et le nombre de téléchargements autorisés est limité à un par destinataire.
MÉTADONNÉES, DOCUMENTATION ET ORGANISATION DES DONNÉES
Cette section précise la manière dont seront décrites et organisées les données produites ou reçues au cours du projet.
This section details how the data generated or received during the project will be described and organized.
Standards et formats disciplinaires des métadonnées*
Standards and metadata
Les jeux de données sont documentés aux normes internationales Data Documentation Initiative (DDI), sous format XML. La documentation a deux parties : La description de l’étude et La description des variables. Au CDSP, nous documentons les données jusqu’au niveau variable (intitulé de la question, consignes aux enquêteurs, filtres, modalités de réponses et tris à plat).
Mode de production et responsabilité des métadonnées
Method of production and metadata responsibility
L’enquête annuelle – vague 1 (2013) a été la première à être diffusée à la communauté scientifique dans le cadre du panel ELIPSS. Des moyens humains importants ont été mobilisés. Le choix des métadonnées à renseigner a constitué la première étape. Ensuite, deux chargés d’études ont produit les métadonnées en accord avec la coordinatrice de production des enquêtes ELIPSS et les deux coordinatrices du projet ELIPSS.
Le logiciel Nesstar, ainsi que MS Excel et Notepad ++ ont été utilisés pour renseigner les métadonnées.
Arborescence de classement
Tree classification
Arborescence en cours de validation.
Règles de nommage des jeux de données
Rules for naming data sets
Actuellement :
fr.cdsp.nom_du_projet.
nom_de_la_norme_de_documentation.
année_de_production_enquête.
mois_de_production_enquête.acronyme_enquête
Nouvelles règles en cours de validation.
Documentation associée
Relevant documentation
Plusieurs documents détaillant la procédure de documentation (étapes à suivre etc.) existent au CDSP.
DISSÉMINATION DES DONNÉES
Cette section précise les modalités et les éventuelles précautions éthiques, juridiques et techniques selon lesquelles seront diffusées les données.
This section describes the procedures and specifies any ethical, legal and technical safeguards under which the data will be released.
Principe général de diffusion*
General principle of diffusion
Les fichiers diffusés sont d’accès gratuit pour une utilisation dans une finalité de recherche. Toute utilisation commerciale est exclue. L’inscription sur le portail Quételet est nécessaire pour recevoir des fichiers de données.
Le formulaire d’engagement prévoit, entre autres :
> le respect de la confidentialité des répondants ;
> la non-rediffusion des données à un tiers ;
> la citation de la source des données dans les publications ;
> la destruction du fichier de données à l’issue de la recherche.
Type de licence
Type of license
La signature d’un engagement d’utilisation de données est nécessaire.
Potentiel de réutilisation*
Potentiel for reuse
De manière générale, les chercheurs français et étrangers, les doctorants, post-doctorants et les étudiants de master en sciences humaines et sociales peuvent accéder aux données diffusées par le CDSP.
Dans le cas particulier de l’Enquête annuelle, une réutilisation des données dans le cadre du projet est également prévue. Une majorité des variables issues du module signalétique (état civil du panéliste, travail et formation, description socio-démographique du ménage, logement et quartier et revenus et patrimoine) et certaines variables du module barométrique (liens sociaux, croyances religieuses, pratiques culturelles, etc.) sont systématiquement appariées aux autres fichiers de données ELIPSS diffusés.
Existence de publications associées aux données
Existing publications related to the data
Oui
Dépôt et dissémination des données*
Data repository and access
Une fois documentées, les enquêtes sont publiées sur le portail Quételet.
Elles sont également consultables (pas téléchargeables) sur le serveur Nesstar du CDSP. Les traitements statistiques en ligne ne sont pas disponibles dans le cas des enquêtes ELIPSS, vu les effectifs réduits du panel dans sa phase pilote (1039 panélistes).
PROTECTION DES DONNÉES SENSIBLES
Pour diverses raisons éthiques, juridiques, financières ou encore techniques, certaines données peuvent nécessiter une protection spécifique et à ce titre échapper aux principes de diffusion. Cette section a donc pour but d’identifier et de définir les critères de protection des données sensibles susceptibles d’être produites ou collectées dans le cadre du projet.
For a variety of ethical, legal, financial or technical reasons, data may require specific protection and as such, escape the rules of distribution. This section identifies and defines criteria for protection of sensitive data that can be produced or collected as part of the project.
Identification des jeux de données sensibles
Identification of sensitive data sets
Données nominatives concernant les panélistes.
Justification du principe d’exception aux conditions générales de diffusion*
Justification for the exception to the general principles of diffusion
Données à caractère personnel.
Mesures de protection
Precautionary mesures
Les données nominatives seront détruites une fois le projet ELIPSS fini. Par ailleurs, dans le cas de variables où les effectifs seraient trop faibles (filtres, etc.), des regroupements sont réalisées afin de garantir l’anonymat des répondants.
Embargo*
Embargo period
Dans le cadre du panel ELIPSS, les données sont diffusées après une période d’embargo de 12 mois.
L’Enquête annuelle n’est pas concernée par cet embargo ; les données sont diffusées une fois anonymisées et documentées.
SÉLECTION ET ARCHIVAGE DES DONNÉES
Cette section concerne l’ensemble des données produites ou collectées au cours du projet, qu’elles aient été diffusées ou non. Il est fortement recommandé de prendre contact avec l‘archiviste de votre établissement lors de la rédaction de cette section.
This section applies to all data generated or collected during the project, whether distributed or not. It is strongly recommended to contact the archivist of your establishment to draft this section.
Sort des données à l’issue du projet
Fate of data at the end of the project
Données mises à disposition de la communauté scientifique une fois anonymisées et documentées.
Sélection des données*
Data selection
Les données n’ont pas toutes vocation à être archivées sur le long terme. Les données nominatives seront détruites une fois le projet ELIPSS fini.
Volume final des données*
Final volume of data
2 Go par an.
Durées de conservation préconisée*
Recommended lifetime
Conservation à vie.
Plate-forme d’archivage*
Long term preservation plateform
Des discussions sont actuellement menées avec le CINES et Sciences Po.
* champs requis par la Commission européenne.
Crédits : Anne Cornilleau, Alina Danciu, Équipe ELIPSS.



À l’issue de la rédaction du DMP, le chercheur responsable des données dispose d’un document descriptif complet, lui permettant de mettre ses données à disposition de façon intelligible et avec un maximum d’interopérabilité.

La difficulté de ces interactions « idéales » est que les compétences d’appui à la recherche peuvent ne pas exister dans tous les établissements, ou ne pas être connues des chercheurs. Par ailleurs, il manque encore des outils informatisés conformes à la pratique française, le DMP n’étant exigé pour l’instant que pour les projets européens. Ensuite, les Sciences Humaines et Sociales recouvrent des disciplines hétérogènes qui demandent des outils adaptés à leurs besoins spécifiques. Le manque récurrent de connexions entre un outil générateur de DMP et les autres outils de signalement de la recherche, telles que les archives ouvertes pour les publications, alourdit encore la tâche.

Lors de notre expérimentation au sein de l’USPC, la difficulté a été de tester le DMP proposé sur des projets réels, en effet, le programme H2020 n’en est encore qu’à ses débuts. Par ailleurs, la Commission européenne est actuellement le seul financeur — en France — qui préconise l’utilisation d’un tel outil même si la loi sur le numérique laisse espérer une utilisation nationale de ce type de dispositif, avec l’ouverture des données.



Nous tenons à remercier chaleureusement Anne Cornilleau, Alina Danciu et l’Équipe ELIPSS pour la réalisation de cet exemple de plan de gestion de données.

Dernière mise à jour : 23 août 2017
Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale 4.0 International. Merci de citer l'auteur et la source.

Réalisé avec SPIP pour la Collection Parcours Numériques aux Editions PUM par Owell.co

Sommaire
Notes additionnelles

[1ComUE : Communauté d’Universités et d’Établissements

[2Avec la mise à disposition d’enquêtes. En savoir plus sur le Réseau Quételet.

[3Promulguée le 7 octobre 2016, la loi « pour une République numérique » (Loi N°2016-1321) prévoit une obligation de diffuser en ligne les principaux documents et données des organismes publics (voir l’article 6) s’ils sont produits de façon numérique. Elle favorise également l’accès ouvert aux publications scientifiques de la recherche publique. Cette disposition va dans le sens de la loi du 22 juillet 2013 (Loi N°2013-660 relative à l’enseignement supérieur et à la recherche) qui, à l’article L112-1 du Code de la recherche, fixe comme l’un des objectifs de la recherche l’organisation de l’accès libre aux données scientifiques. Le CNRS et la Conférence des présidents d’universités (CPU) s’accordent également sur cette orientation (Décret N°2015-1151, CPU, 2015).

[5Olivier Le Deuff, « Humanisme numériques et littératies », Semen, 34 | 2012, mis en ligne le 21 avril 2015.

[7Comité d’éthique du CNRS, « Les enjeux éthiques du partage des données scientifiques », Avis du COMETS, 7 mai 2015.

[8Fabrice Demarthon, « Le Big Data : un enjeu économique et scientifique », CNRS Le Journal, 15 novembre 2012.

[11En tant qu’informations issues de la recherche publique, elles peuvent être considérées comme relevant de la loi CADA (Loi N°78-753 portant amélioration des relations entre l’administration et le public, 1978) même si les exceptions prévues par l’article 11 permettent de les en exclure.

[13CNIL : Commission nationale de l’informatique et des libertés. En savoir plus.

[15Cette notion majeure dans le partage d’informations numériques traduit la capacité des données à être intégrées dans d’autres systèmes que ceux qui les ont produits, grâce aux métadonnées qui décrivent les données pour faciliter leur compréhension et leur réutilisation par d’autres.

[22Aurore Cartier, Magalie Moysan et Nathalie Reymonet, « Guideline for the Production of a Data Management Plan », FOSTER – Facilitate Open Science Training for European Research, 2015.

[25EBIOS : Expression des besoins et identification des objectifs de sécurité. En savoir plus.

[36Registry of Research Data Repositories. En savoir plus.

[39Données, Infrastructures et Méthodes d’Enquête en Sciences Humaines et Sociales. En savoir plus sur l’Equipex DIME-SHS.

[40« Le panel ELIPSS est un dispositif d’enquêtes par internet destiné à la communauté scientifique ». En savoir plus.

Contenus additionnels : 3 contenus

  • Bibliographie de « Gestion des données, partage et conversation pérenne avec le Data Management Plan »

  • « Réaliser un plan de gestion de données » - A. Cartier, M. Moysan et N. Reymonet (2015)

  • Recommandation de l’OCDE concernant l’accès aux données de la recherche financée sur fonds publics

.