Journée thématique GRICAD / SARI
===
https://gricad-media.univ-grenoble-alpes.fr/multimedia/videos/archivage-numerique-donnees-recherche
# Présentation Paolo LAI:
https://gricad-media.univ-grenoble-alpes.fr/video/cycle-vie-donnees
## Principe F.A.I.R
```
F: Findable
A: Accessible
I: Interoperable
R: Reusable
```
- Règle des 3 / 2 / 1 de conservation des données
```
3 exemplaires
2 supports ou techno différents
1 exemplaire hors site
```
### Gestion des données sur 3 temporalités
#### 1: Stockage sécurisé ( type groupdir / drive ):
- Pendant la durée du projet
- Pour qui: Chercheur / Equipe de recherche
#### 2: Sauvegarde pour le partage ( 5 à 10 ans ):
Attention, il ne s'agit pas de sauvargde au sens "backup" mais plutôt dans une optique OpenDATA (le "A" du principe FAIR)
Où ?:
- Entrepôt généraliste
- Entrepôt disciplinaire
Pour qui: équipe de recherche, autre équipe même domaine, autre équipe autre domaine
Pour quelles données:
- Déposer les données et les métadonnées
- Déposer les codes sources dans un entrepôt approprié ( type GIT )
##### Exemple:
- DRYAD : Sciences de la vie / Agronomie / Géosciences Anthropologie / sciences comportementales
- NAKALA : sciences humaines et sociales ( infra https://www.huma-num.fr/ )
- ZENODO : entrepôts généraliste ( commission européenne H2020)
##### Comment choisir un entrepôt de données:
- Celui recommandé par l'institution / le financeur ou la communauté scientifique
- DataInra
- NAkala
- Entrepôt imposé par un éditeur ( non recommandé)
- Gene Expressio
- Omnibus
- en l'absence de recommandation, choisir l'entrepôt dans un annuaire:
- re3data
- OAD
- OpenDOAR
- CAT OPIDoR: CATalogue pour une Optimisation du Partage et l'Interopérabilité des DOnnées de la Recherche https://cat.opidor.fr
##### Principaux critères:
- Discipline / Institution
- Type de données acceptées
- Qualité des métadonnées
- Entrepôt de confiance - certification
- Pérennité des données et métadonnées
- Génération d'un identifiant unique pérenne ( Digital Object Identifier DOI)*
- Gestion des versions
- Gestions des licences ( GPL, Creative Common...)
RDA : Research Data Alliance:
- https://www.rd-alliance.org/system/files/documents/CoretrustsealFR.pdf
- https://rdafrance2019.sciencesconf.org/data/pages/La_Certification_des_entrepots_de_donnees.pdf
DOI = payant (alternative: ARK avec possibilité d'avoir des résolveurs comme pour les DOI)
#### 3: Archivage Pérenne
Sur une plate forme d'archivage long terme:
CINES opérateur mandaté par le ministère (solution PAC: Plateforme d'Archivage au CINES)
:::info
Huma-Num en SHS est en partenariats avec le CINES pour déposer automatiquement les données de Nakala
:::
:::warning
beaucoup d'exigences sur le format des données !
:::
#### Pour quelles données:
- doit présenter une valuer scientifique reconnue par la communauté
mesures de contrôle de la qualité des données
- considérations politiques / Institutionnelles ( obligation pour les ANR )
- considérations juridiques / statutaire ( contrat avec un industriel )
- considérations financières ( si les données coûtent moins chères à reproduire qu'à stocker )
- conservation des données > 30 ans
#### Nommage des fichiers
OK:
```
- date au format ISO AAAA-MM-JJ
- 30 caractères MAX
- CamelCase et "_"
- indiquer un # de version
```
NOK:
```
- pas de caractères spéciaux ùéàç+'@<$&!....
- pas d'espaces, de mots vides
- éviter divers, autres, à classer, copie..
```
# Présentation ILL - Jean-François PERRIN
http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_6-JF_Perrin.mp4
- En contrat avec INIST (https://www.inist.fr/ ) pour la fourniture de DOI par DataCite (https://datacite.org/)
# Présentation Marie-Laure BACHELERIE-GOUVERNEUR
http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_4-MH_Bachelerie-Gouverneur.mp4
Textes et réglementations
# Présentation Olivier Rouchon
http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_8-Olivier_Rouchon.mp4
Modèle OAIS et logiciel VITAM
- Modèle OAIS : proposer un cadre normatif général pour l'archivage numérique
- SEDA: Standard Echange de Données pour l'Archivage : Norme ministère de la culture
- VITAM: solution open source implémentation du standard SEDA adoptée par le CINES http://www.programmevitam.fr/
# Présentation Olivier Rouchon
http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_9-Olivier_Rouchon.mp4
Archivage des données au CINES (Montpellier)
- agrément SIAF https://francearchives.fr/article/26287441
- 2020 -> 350TB
- Respect de la règle de 3/2/1 avec:
- 3 copies: disk / bande / disk site distant pour les datasets < 100TB
- 2 copies sur bandes / disk site dostant > 100 TB
- contrôle périodique des cheksums: en cas corruption : comparaison des 3 copies
- https://facile.cines.fr/ aide à la validation des formats
- pour les données RAW supporte uniquement le HDF5 https://www.hdfgroup.org/solutions/hdf5
- contribution financière : 1K€ / TB / AN
# Présentation Michel Jacobson
http://newstream.u-ga.fr/2019_11_20-Archivage_Donnees_Recherche_10-Michel_Jacobson.mp4
Archivage des données à Huma-Num
Sous-traité au CINES mais propose un accompagnement notamment pour l'ajout de nouveau format
# Présentation Yonny CARDENAS
https://gricad-media.univ-grenoble-alpes.fr/video/archivage-donnees-l-in2p3
Archivage des données à l'IN2P3
- 100PBs de données sur bande magnétique ( techno HPSS)
- stockage DAS : dCache XRootD, iRods
- NAS : Isilon (NFS )
- SDS: Shared Disk Storage : GPFS (HPC)