Journée thématique GRICAD / SARI === https://gricad-media.univ-grenoble-alpes.fr/multimedia/videos/archivage-numerique-donnees-recherche # Présentation Paolo LAI: https://gricad-media.univ-grenoble-alpes.fr/video/cycle-vie-donnees ## Principe F.A.I.R ``` F: Findable A: Accessible I: Interoperable R: Reusable ``` - Règle des 3 / 2 / 1 de conservation des données ``` 3 exemplaires 2 supports ou techno différents 1 exemplaire hors site ``` ### Gestion des données sur 3 temporalités #### 1: Stockage sécurisé ( type groupdir / drive ): - Pendant la durée du projet - Pour qui: Chercheur / Equipe de recherche #### 2: Sauvegarde pour le partage ( 5 à 10 ans ): Attention, il ne s'agit pas de sauvargde au sens "backup" mais plutôt dans une optique OpenDATA (le "A" du principe FAIR) Où ?: - Entrepôt généraliste - Entrepôt disciplinaire Pour qui: équipe de recherche, autre équipe même domaine, autre équipe autre domaine Pour quelles données: - Déposer les données et les métadonnées - Déposer les codes sources dans un entrepôt approprié ( type GIT ) ##### Exemple: - DRYAD : Sciences de la vie / Agronomie / Géosciences Anthropologie / sciences comportementales - NAKALA : sciences humaines et sociales ( infra https://www.huma-num.fr/ ) - ZENODO : entrepôts généraliste ( commission européenne H2020) ##### Comment choisir un entrepôt de données: - Celui recommandé par l'institution / le financeur ou la communauté scientifique - DataInra - NAkala - Entrepôt imposé par un éditeur ( non recommandé) - Gene Expressio - Omnibus - en l'absence de recommandation, choisir l'entrepôt dans un annuaire: - re3data - OAD - OpenDOAR - CAT OPIDoR: CATalogue pour une Optimisation du Partage et l'Interopérabilité des DOnnées de la Recherche https://cat.opidor.fr ##### Principaux critères: - Discipline / Institution - Type de données acceptées - Qualité des métadonnées - Entrepôt de confiance - certification - Pérennité des données et métadonnées - Génération d'un identifiant unique pérenne ( Digital Object Identifier DOI)* - Gestion des versions - Gestions des licences ( GPL, Creative Common...) RDA : Research Data Alliance: - https://www.rd-alliance.org/system/files/documents/CoretrustsealFR.pdf - https://rdafrance2019.sciencesconf.org/data/pages/La_Certification_des_entrepots_de_donnees.pdf DOI = payant (alternative: ARK avec possibilité d'avoir des résolveurs comme pour les DOI) #### 3: Archivage Pérenne Sur une plate forme d'archivage long terme: CINES opérateur mandaté par le ministère (solution PAC: Plateforme d'Archivage au CINES) :::info Huma-Num en SHS est en partenariats avec le CINES pour déposer automatiquement les données de Nakala ::: :::warning beaucoup d'exigences sur le format des données ! ::: #### Pour quelles données: - doit présenter une valuer scientifique reconnue par la communauté mesures de contrôle de la qualité des données - considérations politiques / Institutionnelles ( obligation pour les ANR ) - considérations juridiques / statutaire ( contrat avec un industriel ) - considérations financières ( si les données coûtent moins chères à reproduire qu'à stocker ) - conservation des données > 30 ans #### Nommage des fichiers OK: ``` - date au format ISO AAAA-MM-JJ - 30 caractères MAX - CamelCase et "_" - indiquer un # de version ``` NOK: ``` - pas de caractères spéciaux ùéàç+'@<$&!.... - pas d'espaces, de mots vides - éviter divers, autres, à classer, copie.. ``` # Présentation ILL - Jean-François PERRIN http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_6-JF_Perrin.mp4 - En contrat avec INIST (https://www.inist.fr/ ) pour la fourniture de DOI par DataCite (https://datacite.org/) # Présentation Marie-Laure BACHELERIE-GOUVERNEUR http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_4-MH_Bachelerie-Gouverneur.mp4 Textes et réglementations # Présentation Olivier Rouchon http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_8-Olivier_Rouchon.mp4 Modèle OAIS et logiciel VITAM - Modèle OAIS : proposer un cadre normatif général pour l'archivage numérique - SEDA: Standard Echange de Données pour l'Archivage : Norme ministère de la culture - VITAM: solution open source implémentation du standard SEDA adoptée par le CINES http://www.programmevitam.fr/ # Présentation Olivier Rouchon http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_9-Olivier_Rouchon.mp4 Archivage des données au CINES (Montpellier) - agrément SIAF https://francearchives.fr/article/26287441 - 2020 -> 350TB - Respect de la règle de 3/2/1 avec: - 3 copies: disk / bande / disk site distant pour les datasets < 100TB - 2 copies sur bandes / disk site dostant > 100 TB - contrôle périodique des cheksums: en cas corruption : comparaison des 3 copies - https://facile.cines.fr/ aide à la validation des formats - pour les données RAW supporte uniquement le HDF5 https://www.hdfgroup.org/solutions/hdf5 - contribution financière : 1K€ / TB / AN # Présentation Michel Jacobson http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_10-Michel_Jacobson.mp4 Archivage des données à Huma-Num Sous-traité au CINES mais propose un accompagnement notamment pour l'ajout de nouveau format # Présentation Yonny CARDENAS https://gricad-media.univ-grenoble-alpes.fr/video/archivage-donnees-l-in2p3 Archivage des données à l'IN2P3 - 100PBs de données sur bande magnétique ( techno HPSS) - stockage DAS : dCache XRootD, iRods - NAS : Isilon (NFS ) - SDS: Shared Disk Storage : GPFS (HPC)