![Logo des bibliothèques](https://i.imgur.com/e4SQ78e.png =200x) <style> .reveal { font-size: 24px; } </style> ## Série : Organisez-vous comme un.e. bibliothécaire ![](https://i.imgur.com/ECcJTvH.png =150x) ## Décrire un ensemble de données avec des métadonnées Ève Paquette-Bigras, bibliothécaire - gestion des données de recherche Hélène Tardif, bibliothécaire - chimie et sciences biologiques 29 novembre 2022 --- ### Organisez-vous comme un.e. bibliothécaire… * Organiser une revue de littérature * Organiser la rédaction de sa thèse (avec le modèle de thèse DOCX ou LaTeX) * Organiser des données de recherche * avec un plan de gestion de données * avec la **curation de données** (normalisation + création de métadonnées) * Organiser le partage des connaissances * avec la publication de données de recherche --- ### Plan de l'atelier 1. Concept de métadonnées 2. Principes FAIR 3. Bonnes pratiques 4. Typologie et fonctions des métadonnées 5. Décrire un ensemble de données avec le schéma EML 6. Pour aller plus loin (schémas et vocabulaires contrôlés) --- ### Concept de métadonnées ![](https://i.imgur.com/u3im92s.png =200x) <div style="text-align: left">Métadonnée : « Donnée qui renseigne sur la nature de certaines autres données dans le but d'en faciliter la compréhension et la gestion. »</div> <div style="text-align: right">Le grand dictionnaire terminologique</div> --- ### Concept de métadonnées * Élément d'information, structuré ou non, qui décrit une ressource informationnelle (article scientfique, livre, données de recherche) ou toute chose qu'on souhaite décrire (objets, lieux, etc.) * Créées manuellement par vous (en codant ou en saisissant du texte dans des champs à remplir) * Créées automatiquement par les machines (DOI, date de création/modification; extension d’un fichier) >Ex. d’étiquettes de métadonnées : Titre, Année, Auteur(s), Description, Mots-clés, DOI. etc. --- ### Concept de métadonnées Les métadonnées de données d'observation se concentrent sur : * QUEL est le contenu des données ? * QUI a collecté les données ? * QUAND les données ont-elles été collectées ? * OÙ ont-elles été collectées ? * COMMENT les données ont-elles été collectées, traitées et analysées? --- ### Où se trouvent les métadonnées ? Dans vos achats en ligne... ![](https://i.imgur.com/aA2UX2C.png =600x) --- ### Où se trouvent les métadonnées dans votre quotidien ? Dans vos documents Word... ![](https://i.imgur.com/LOd0h1F.png =600x) --- ### Où devraient se trouver les métadonnées dans votre quotidien de chercheuse, chercheur ? * Données brutes ![](https://i.imgur.com/PVO9iXF.png) Note: Intéressant mais peu parlant. --- ### Où devraient se trouver les métadonnées dans votre quotidien de chercheuse, chercheur ? * Ajout d'un premier niveau de métadonnées ![](https://i.imgur.com/iWzgCES.png) Note: Un généticien peut de s'y retrouver avec ces informations --- ### Où devraient se trouver les métadonnées dans votre quotidien de chercheuse, chercheur ? * Ajout d'un deuxième niveau de métadonnées ![](https://i.imgur.com/ihjtWoc.png) Note: Description de l’ensemble de données dont fait partie cette séquence : le séquençage génétique de Carpodacus mexicanus, une espèce d’oiseau. --- ### Où devraient se trouver les métadonnées dans votre quotidien de chercheuse, chercheur ? * Ajout d'un troisième niveau de métadonnées ![](https://i.imgur.com/JmsEYP1.png =800x) Note: L'ajout de deux vedettes-matières du RVM permet de mieux caractériser les métadonnées précédentes en normalisant la nomenclature utilisée, ce qui facilite le repérage. --- ### Principes FAIR * Faciles à trouver (**Findable**) par les humains et les machines * Accessibles (**Accessible**) par les humains et les machines * Interopérables (**Interoperable**) par les machines * Réutilisables (**Reusable**) par les humains Note: En 2016, ["FAIR Guiding Principles for scientific data management and stewardship"](https://dash.harvard.edu/handle/1/26860037) a été publié dans la revue Scientific Data par Wiilkinson et all. L'intention des auteurs était de fournir des **lignes directrices** pour améliorer la trouvabilité, l'accessibilité, l'interopérabilité et la réutilisation des actifs numériques. Les principes mettent l'accent sur la capacité des systèmes informatiques à trouver, accéder, interagir et réutiliser des données sans ou avec le minimum d'intervention humaine minimale, parce que les humains comptent de plus en plus sur le support informatique pour traiter les données en raison de l'augmentation du volume, de la complexité et de la vitesse de création des données. Bien avant 2016 les écologistes se sont intéressés à la préservation et à la normalisaton des données. Le rôle important des métadonnées dans la facilitation de la recherche en écologie est reconnu depuis les années 1980 et plusieurs approches pratiques de la gestion des métadonnées avaient cours, en grande partie attribuables au leadership des gestionnaires de données associés au réseau LTER. En 1996 des normes de description des métadonnées géospatiales existaient déjà, cependant, aucunes normes de métadonnées pour les données écologiques non géospatiales n'étaient formalisées au-delà d’études ou d’expériences individuelles. Principes adoptés par la Politique des organismes subventionnaires canadiens sur la gestion des données de recherche (CRSNG, CRSH. IRSC). --- ### Principes FAIR ![](https://i.imgur.com/eN2qsxi.png =550x) --- ### Principes FAIR ![](https://i.imgur.com/ZkhoKdX.png =550x) --- ### Principes FAIR ![](https://i.imgur.com/JNHFN01.png =550x) --- ### Principes FAIR ![](https://i.imgur.com/OjbYorF.png =550x) --- ### Principes FAIR Les métadonnées jouent un rôle essentiel dans l’application des principes FAIR >« Toutes les données de recherche devraient être accompagnées de métadonnées qui sont compatibles avec les pratiques exemplaires internationales et disciplinaires, afin de permettre leur accès, leur lisibilité et leur réutilisation par de futurs utilisateurs. » <font size="2"> Extrait de la Déclaration de principes des trois organismes (CRSNG, CRSH et IRSC) sur la gestion des données numériques</font> Note: Les métadonnées sont importantes pour répondre aux exigences de la Déclaration de principes des trois organismes sur la gestion des données numériques. Mais aussi pour vous et vos collègues au quotidien. --- ### Bonnes pratiques Ensemble de données = données + métadonnées ![](https://i.imgur.com/WdTGmXF.png =300x) Note: Les informations destinées à être conservées dans les métadonnées sont susceptibles de se dégrader rapidement si elles ne sont pas enregistrées. --- ### Bonnes pratiques #### Entropie des données et de l'information ![](https://i.imgur.com/D577JzH.png) >Sans métadonnées les données sont condamnées à l'oubli... Note: Exemple de la dégradation normale dans le temps du contenu informationnel associé aux données et aux métadonnées. Des accidents ou changements dans la technologie de stockage peut, à tout moment, supprimer l'accès aux données brutes restantes et aux métadonnées. --- ### Bonnes pratiques #### Bien documenter pour pallier à l'entropie des données 1. Le fait d'enregistrer tous les détails qui sont faciles à perdre/oublier permet d'interpréter, utiliser et réutiliser les données au fil du temps. 2. Votre cerveau peut être utilisé à des tâches bien plus importantes que la mémorisation des détails du projet et des données à inclure dans les métadonnées. 3. Les métadonnées que vous créez et gérez peuvent facilement être intégrées à des publications (Matériel et méthodes) et des ensembles de données qui sont soumis à des dépôts de données pour le stockage à long terme et le partage . <font size="1"> Michener, W. K. (2018). Creating and Managing Metadata. Dans F. Recknagel et W. K. Michener (dir.), *Ecological Informatics: Data Management and Knowledge Discovery* (p. 71‑88). Springer.</font> --- ### Bonnes pratiques #### Comment optimiser les métadonnées dans votre projet de recherche ? (1/3) * Commencez à créer les métadonnées dès le début de votre projet de recherche et mettez-les à jour au fur et à mesure de évolution de vos travaux pour, à la fin, avoir des métadonnées complètes pour chaque ensemble de données. * Traitez les métadonnées comme un document vivant qu'il faut réviser souvent. --- ### Bonnes pratiques #### Comment optimiser les métadonnées dans votre projet de recherche ? (2/3) * Engagez toutes les parties concernées dans la création et la gestion des métadonnées : chercheur principal, membre du personnel, étudiant.e.s., c'est-à-dire toute personne qui pourra probablement « toucher aux données ». * Créez des métadonnées qui peuvent être comprises par quelqu'un qui n'est pas familier avec le projet. >Toute information dont quelqu'un d'autre aurait besoin pour comprendre vos données sans avoir à vous le demander ! --- ### Bonnes pratiques #### Comment optimiser les métadonnées dans votre projet de recherche ? (3/3) * Utilisez des normes et des outils de métadonnées. * Utilisez des formats reconnus par les communautés scientifiques : même format pour même type données. * Adoptez des termes normalisés pour les lieux, les mots-clés et les taxons afin de promouvoir la cohérence et de faciliter la découverte des données. --- ### Typologie et fonctions des métadonnées #### Les métadonnées descriptives : * Visent à faciliter la découverte, l'identification, la sélection et la réutilisation des ressources. * À l’échelle du projet : décrivent l’ensemble de données, donc le contexte qui permet de comprendre le but de la collecte et de l’utilisation des données. * À l’échelle du jeu de données : décrivent et contextualisent les données avec plus de détails. Note : Il existe plusieurs types de métadonnées (administratives, structurelles, descriptives). Celles que nous voyons aujourd'hui sont les métadonnées descriptives. --- ### Typologie et fonctions des métadonnées #### <div style="text-align: left">Précisions terminologiques</div> * Les **schémas de métadonnées** fournissent le contenant dans lequel les éléments de données seront déposés : * Regroupement d’éléments descriptifs * Conçus pour décrire un domaine spécifique ou un type particulier de ressources * Le nom et la sémantique sont spécifiés * Dictent comment l'information doit être conceptuellement et logiquement décrite. >[Darwin Core](http://rs.tdwg.org/dwc.htm), [EML](https://eml.ecoinformatics.org/), [ISA-TAB](https://isa-specs.readthedocs.io/en/latest/index.html) Note: Data model (data schema) : comment l'information doit être conceptuellement et logiquement décrite pour optimiser le stockage, l'accès et l'interprétation dans certaines applications informatiques. --- ### Typologie et fonctions des métadonnées #### <div style="text-align: left">Précisions terminologiques</div> * Les **règles de description** permettent de transcrire et de codifier l’information selon des directives précises. * Ce qui inclut les vocabulaires contrôlés utilisés. Note: Les règles de description peuvent être définies à l'échelle d'un laboratoire, d'une équipe de recherche. --- ### Typologie et fonctions des métadonnées #### <div style="text-align: left">Précisions terminologiques</div> * Les **vocabulaires contrôlés** normalisent l’indexation des documents : * Ensembles de termes reconnus, fixés, normalisés et validés par un groupe (une communauté de pratiques). * Utilisés pour indexer ou analyser le contenu d’une ressource. * Destinés à faciliter la recherche et le repérage de l’information. * Définitions non ambigües et non redondantes garantissant que les données portant sur un même sujet seront décrites avec les mêmes termes préférentiels. >[Controlled vocabularies for ecological data](https://environmentaldatainitiative.org/five-phases-of-data-publishing/phase-3/controlled-vocabularies/) --- ### Typologie et fonctions des métadonnées >La documentation est aussi une métadonnée ! * Modèles : conçus pour rendre les métadonnées réutilisables. Les modèles sont des ensembles de balises enregistrés qui peuvent être appliqués à des objets similaires. Par ex.: **fichier Readme** ou lisez-moi (readme.txt) > Modèle en [français](https://uqtr.libguides.com/ld.php?content_id=35593298) ou en [englais](https://cornell.app.box.com/v/ReadmeTemplate) * **Data Paper** : article scientifique évalué par les pairs qui décrit un jeu de données, la méthode ayant permis de l’obtenir et le potentiel de réutilisation de ce jeu. Ce type de document ne décrit pas de résultats de recherche et ne contient ni discussion, ni conclusion. Publier un Data paper implique de rendre accessible le jeu de données. Par ex. : [Description of long-term monitoring of farmland biodiversity in a LTSER](https://www.sciencedirect.com/science/article/pii/S2352340918305316?via%3Dihub) --- ### Décrire un ensemble de données avec le schéma EML * Ecological Metadata Langage (EML) est une norme de métadonnées : * Optimisée pour l'écologie et les sciences environnementales * Qui utilise le format XML * Qui respecte les principes FAIR * EML permet de saisir et de formaliser des informations indispensables à la description des données écologiques --- ### Décrire un ensemble de données avec le schéma EML ![](https://i.imgur.com/dj2SKya.png) > Outil sous forme de formulaire : [ezEML](https://ezeml.edirepository.org/) Note: Minimalement, on a avoir un titre, un auteur et une personne-contact. Un document comme celui-ci peut être complété par des métadonnées additionnelles décrivant les projets et les méthodes de recherche, des informations structurelles sur les données, etc. Tout ce qui peut vous être utile pour contextualiser les données. --- ### Décrire un ensemble de données avec le schéma EML Éléments pouvant bénéficier de règles minimales de description : * Titre * Chercheurs et contributeurs * Affiliation * Résumé descriptif du projet de recherche * Sujets, thématiques => utiliser un vocabulaire contrôlé * Date de collecte => format ISO YYYY-MM-DD * Couverture géographique --- ### Décrire un ensemble de données avec EML et R Exercice avec R et *EML package* --- ### Pour aller plus loin #### Schémas de métadonnées et vocabulaires contrôlés en sciences biologiques et environnementales Qu’est-ce qu’un schéma de métadonnées et un vocabulaire contrôlé? Un schéma de métadonnées fournit une structure pour représenter les métadonnées d’un document. Cette structure rassemble les éléments que le schéma juge nécessaires à intégrer aux métadonnées. Pour documenter ces éléments, il est conseillé d’utiliser des vocabulaires contrôlés. Un vocabulaire contrôlé est un ensemble de termes préférentiels permettant d’unifier la représentation d’un concept, qui peut prendre plusieurs formes : thésaurus, ontologie, taxonomie, etc. Il est courant que les schémas de métadonnées, dans leurs spécifications, prescrivent déjà un vocabulaire contrôlé pour certains éléments (par exemple, en demandant à ce que la valeur de certains éléments soit attribuée à l’aide de codes prédéterminés), tout en laissant, pour d’autres éléments, la possibilité d’être renseignés avec un vocabulaire libre. Dans ces cas, il est conseillé d’utiliser des vocabulaires contrôlés déjà existants plutôt que d’apposer un terme de son cru. Que considérer lors du choix d’un schéma de métadonnées? Idéalement, un schéma de métadonnées devrait être adopté dès l’élaboration du plan de gestion de données (PGD) et consigné dans celui-ci. Idéalement, un schéma de métadonnées devrait : * Refléter adéquatement le contenu des données, en incluant non seulement des informations opérationnelles (auteurs, date de mise à jour...) mais aussi intrinsèques au contenu et au contexte de leur collecte (informations sur le protocole, sur l’échantillon, etc.). On peut se poser la question : est-ce que les métadonnées permettront à un tiers de déterminer si le fichier de données qui y est rattaché pourra lui être utile? Dans le doute, inclure le plus d’information possible. * Refléter adéquatement le format des données. Un fichier de données qui consiste en des images aura avantage à être décrit par une norme qui permet d’exprimer des spécificités du format comme Audubon Core. * Optimiser l’intéropérabilité avec d’autres schémas et systèmes. Des schémas intégrés à des dépôts de données peuvent utiliser des passerelles afin de lier les éléments de différents schémas de métadonnées entre eux : c’est le cas de DataVerse, qui propose un schéma maison avec des passerelles vers d’autres schémas comme Dublin Core ou DDI. Quelques exemples de schémas de métadonnées : **Darwin Core / DwC-A** Une norme de données développée par la Biodiversity Information Standards (TDWG). Basé sur le Dublin Core, le Darwin Core permet de décrire les données d’observation (lieu, échantillon, organisme étudié, etc). Une «Archive Darwin Core» (DwC-A) désigne un ensemble de documents formaté pour répondre à ces standards, et doit contenir, en plus des métadonnées exigées par le Darwin Core, une fiche de métadonnées au format XML pour lequel le standard EML est demandé. https://dwc.tdwg.org/ **Audubon Core** Un schéma maintenu par la Biodiversity Information Standards (TDWG), qui convient pour décrire de manière extensive les ressources multimédia en écologie. Ce schéma reprend le vocabulaire de plusieurs autres standards, dont le Darwin Core et le Dublin Core. Le Audubon Core peut être utilisé comme une norme de métadonnées en elle-même, ou en extension au Darwin Core. **EML-XML** Un schéma maintenu par le National Center for Ecological Analysis and Synthesis (NCEAS). Largement adopté par les écologistes, ce schéma propose des éléments adaptés pour décrire les propriétés géographiques, temporelles, taxonomiques d’un jeu de données ainsi que les méthodes et protocoles utilisés. https://eml.ecoinformatics.org/ **ISA-TAB** Un schéma basé sur la description d’expérimentations, qui permet de décrire les technologies utilisées, les caractéristiques de l’échantillon, etc., utilisé entre autres en sciences biomédicales et sciences environnementales. Une série d’outils (ISA-Tools) peut assister la gestion des métadonnées. Le bloc de métadonnées de Dataverse pour les sciences environnementales (Life Sciences Metadata) utilise un schéma maison basé sur ISA-TAB. https://isa-tools.org/ https://isa-specs.readthedocs.io/en/latest/isatab.html Que considérer pour le choix de vocabulaires contrôlés? En plus des schémas de métadonnées, des vocabulaires contrôlés peuvent être utilisés pour assurer la cohérence et l’exactitude des termes utilisés et ainsi rendre les données plus interopérables et repérables. Il est conseillé de sélectionner des vocabulaires contrôlés déjà existants et utilisés par la communauté scientifique. Voici une liste de six pistes de réflexion qui pourront guider le choix de vocabulaires contrôlés: 1. Le vocabulaire contrôlé couvre-t-il adéquatement le domaine de connaissances? Un vocabulaire contrôlé peut couvrir différents niveaux de spécificité. L’important est que les termes essentiels au domaine de connaissances couvert y figurent. Par ailleurs, les termes utilisés, et les relations entre eux, devraient refléter l’état des connaissances actuel du domaine de recherche. 2. Les classes et relations sont-elles définies textuellement? Les termes préférentiels sont-ils liés à des synonymes ou termes relatifs? Il est important que les termes d’un vocabulaire contrôlé soient liés à une définition afin d’éviter l’ambiguïté. Les définitions devraient être rédigées par des experts du domaine, sans toutefois utiliser un jargon trop spécifique. 3. Le vocabulaire contrôlé utilise-t-il des identifiants pérennes pour les classes et relations? Dans un vocabulaire contrôlé plus complexe (ontologie, par exemple), l’utilisation d’identifiants (comme des URI) pour définir les classes et les relations est favorable, car cela permet de désambiguïser les termes et d’accroître la pérennité du vocabulaire contrôlé. 4. Ce vocabulaire est-il développé par la communauté scientifique? Le fait qu’un vocabulaire contrôlé soit continuellement développé par un groupe de travail en lien avec la recherche de son domaine en assure l’exactitude et la pérennité de sa sémantique. 5. Le vocabulaire contrôlé est-il parfois mis à jour? Il est préférable de choisir un vocabulaire contrôlé qui continue d’évoluer avec le domaine de connaissances qu’il couvre. Les anciennes versions sont-elles accessibles? Y a-t-il des termes indiqués comme obsolètes? Conserver les anciennes versions et les anciens termes plutôt que de les supprimer est signe d’un vocabulaire contrôlé bien géré. 6. Le vocabulaire contrôlé est-il en libre accès et dans un format ouvert? Dans la perspective d’un partage de données, il est important de choisir un vocabulaire contrôlé avec une licence idéalement en libre-accès et qui permet la réutilisation, pour que la compréhension des données soit accessible et que le partage des données soit fait en toute légalité. À noter qu’un vocabulaire contrôlé peut être le fruit d’un travail collectif en constante évolution. Si une terminologie convient bien à un domaine, mais que certains termes sont manquants, il est tout à fait possible de contacter le groupe de travail responsable pour lui suggérer les ajouts souhaités. Quelques exemples de vocabulaires contrôlés utilisés fréquemment en sciences biologiques et environnementales : **EnvO – The Environment Ontology** : ontologie qui permet de faire la description d’écosystèmes ou des environnements où sont observés les spécimens et échantillons. https://sites.google.com/site/environmentontology/about-envo **SWEET – Semantic Web for Earth and Environmental Terminology Ontologies** : suite de plus de 220 ontologies qui font intervenir 9 concepts larges servant de base commune. Originellement développées par la NASA, ces ontologies regroupent plus de 6900 concepts (classes, caractéristiques…) qui couvrent le domaine des géosciences. https://bioportal.bioontology.org/ontologies/SWEET **NCBI Taxonomy** La NCBI Taxonomy couvre la nomenclature d’organismes et leur classification. Elle inclut tous les organismes décrits dans les Nucleotide and Protein sequence Databases de l’International Nucleotide and Protein Sequence Database Collaboration. https://www.ncbi.nlm.nih.gov/taxonomy **Global Change Master Directory (GCMD) keywords** GCMD Keywords est un vocabulaire contrôlé également développé par la NASA et utilisé par la Global Change Master Directory pour décrire les données et métadonnées en géosciences, selon différents niveaux de spécificité. Les GCMD Keywords sont adoptées par une cinquantaine d’organisations à travers le monde. https://earthdata.nasa.gov/earth-observation-data/find-data/idn/gcmd-keywords --- #### Articles consultés : * Jones, M. B., Schildhauer, M. P., Reichman, O. J., & Bowers, S. (2006). The new bioinformatics: Integrating ecological data from the gene to the biosphere. Annual Review of Ecology, Evolution, and Systematics, 37(1), 519–544. https://doi.org/10.1146/annurev.ecolsys.37.091305.110031 * Michener, W. K. (2018). Creating and Managing Metadata. Dans F. Recknagel et W. K. Michener (dir.), *Ecological Informatics: Data Management and Knowledge Discovery* (p. 71‑88). Springer. * Michener, W. K., Brunt, J. W., Helly, J. J., Kirchner, T. B., & Stafford, S. G. (1997). Nongeospatial metadata for the ecological sciences. Ecological Applications, 7(1), 330–342. https://doi.org/10.1890/1051-0761(1997)007[0330:NMFTES]2.0.CO;2 --- #### Source des images : * Page de titre et page 4 : [Digitalbevaring.dk](https://digitalbevaring.dk) * Principes FAIR : extrait et adapté de *Implementing FAIR Data Principles* par LIBER sous licence CC Attribution. Images par Jørgen Stamp sous licence CC Attribution 2.5. * Séquençage génétique du roselin familier : extrait et adapté de *Meilleures pratiques de gestion des métadonnées décrivant les données de recherches* - Christian Lacroix (2017) Sauf indications contraires, les contenus de cette présentation créée par les bibliothèques UdeM sont sous licence CC BY. Conditions d’utilisation.
{"metaMigratedAt":"2023-06-17T12:57:45.419Z","metaMigratedFrom":"YAML","title":"Atelier métadonnées","breaks":true,"contributors":"[{\"id\":\"b2b428ed-8aa8-4246-9df2-791d4e2b68aa\",\"add\":51351,\"del\":25878},{\"id\":\"042f17f4-a76d-4699-934d-d5c93a66896f\",\"add\":2199,\"del\":3379}]"}
    553 views