
## Notes du tour de table par INBS
### présa Isabelle Blanc RDG
* recherche.data.gouv.fr
* isabelle.blanc@recherche.gouv.fr
* I.B. porte la politique PNSO données et codes source
* création de Recherche Data Gouv (acronyme à éviter) : un écosystème au service du partage et de l'ouverture des données
* ambition : LPRN 2016 -- droits positifs --
* art. 30 : conditions d'ouverture, ie 50%+ financement public
* ouverture de l'ensemble des produits de la recherche : publication, data, logiciel
* concevoir nativement des données reutilisables : see FAIR principles
* RDG : accompagner les équipes dans cette démarche
* note : taux de citation des données re-utilisées +25 +75 % (ie données partagées ou ouvertes)
* donnee partagee reconnus comme une production de la recherche
* Données partagées : métadonnées ouvertes et données accessibles en accès restreint
* Données Ouvertes : données sources ouvertes
* RDG lancé il y a deux ans
* solution d'accompagnement dans cette démarche : gestion et ouverture des données
* autres pays : initiatives au niveau national, eviter l'éparpillement
* créer un maillage d'offres d'accompagnement en proximité de la recherche
* un seul entrepôt et catalogue qui peut fédérer, complémentaire aux entrepôts thématiques, aussi pour données 'orphelines'
* une alternative aux PFS commerciales pour les publications
* entrepôt mutualisé
* accompagnement :
* ateliers de la donnée : expertise de proximité et généraliste
* autour des universités...
* 15 ateliers opérationnels, 10 en projet
* aussi, CRTs : centres de référence thématique : bonnes pratiques, standards, ... 6 CRTs
* de plus, 4 centres de resources (comme OPIDoR)
* donc tout cela construit l'écosystème
* donc : privilégier l'accompagnement plutôt que proposer une solution technique
* gouvernance collective
* Métier de la données
* Difficulté de reconnaitre les acteurs en lien avec les métiers de la données.
* Peu de formations initiales et encore moins de formations continues.
* Activités 'invisibles'
* étude confiée à Anne Laurent UMontpellier
* comprendre les pratiques
* identifier les statuts professionnels
* phase quantitative faite, phase qualitative en cours
* rendue fin 2023 ?
Objectif : description de l'ensemble des métiers => avoir des fiches de poste.
Pour avoir capacité à recruter sur ce poste et reconnaitre ces activités.
Un constat : beaucoup de ces activités est porté par les chercheurs eux même.
Questions:
Aude Perdereau France Génomique
* pb avec RGPD, données génomiques & sensibles, données en santé
* ? alléger les procédures ?
* RGPD empêche ... est très handicapant
* Isabelle B :
* une PF d'harmonisation comme centre de resource juridique ; disponible fin 2023
* encore en phase de récolte de remontées...
* aussi, dans RGPD : une tolérance re les données de la recherche https://www.cnil.fr/fr/recherche-scientifique-hors-sante
* cadre européen
* --> sujet en cours
* PROGEDO : Q d'anonymisation & de pseudomisation : mise en commun d' outils
* contact : Agnès Robin
Grégoire (France Cohorte)
* données de cohortes
* propose son aide, collaboration, avec CNIL
Stephen Whitmarsh (Paris Brain Institute)
* coordination with CNIL important
* genetic data & AI
* how much is CNIL involved here?
* what are the policies regarding genetic data
* how can we move forward: e.g. by standarding language and mutual understanding
Isabelle :
* comment en tant qu'infra on peut se coordonner
* pour être influent au niveau de la CNIL et EU
* important : nous faire remonter les infos
Grégoire
* discute avec HealthData, cas d'usages
* re genetic data and sharing
### FBI - Guillaume Gay
* données de microscopie
* volumétrie importante Go à To
* grande prolifération de formats propriétaires, mais OME-tiff de bio.formats pour cadrer/standardiser cela
* avec OME-ZARR nouveau format très gros volumes
* gestion des données
* disques durs, solution OMERO, MuDiS4LS, assez disparate
* mise en place de OMERO + IRODs à l'échelle des mésocentres pour gestion et FAIRisation
* initiative de QUAREP, voir article REMBI (minimal metadata)
* Euro Bioimaging, entrepôts, ... infras internationalws très structurantes et supportives
* données secondaires
* OME-zarr + RO-crate
* Stephen agrees
### ChemBioFrance - Fred Assié, Kiet Tran
* Kiet Tran, F
* volumétrie
* Ko à Mo
* données déjà nettoyées
* formats ouverts
* FAIRisation en cours de réflexion
* PGD structure en cours de rédaction
### CELPHEDIA - Hamid Meziane
* phenomin, une composante de celphedia
* différents types de données
* exploration fonctionnelle
* 1-2Go
* formats ouverts
* gestion des données, BIOX, en accès ouvert openBIOX(3R)
* FAIRisation : PGD structure
* entrepôt, en accès ouvert
* exploration comportementale
* volumétrie plus importante
### EMBRC - France
* soutient à la recherche
* Villefrance : station marine, avec Banyls sur Mer et Roscoff
* base de données OMERO mutualisée avec les autres stations, avec l'aide de IFB et FBI
* travail PGD depuis longtemps (2018-19)
* ANF gestion des données OMERO Montpellier Juin 2023
* encore beaucoup de travail à faire dans le domaine de la science ouverte
* très gros volumes de données (microscopie, traitement d'images, modélisation, ... plus encore)
* données très variées
* aussi, REMBI..
Jean-François :
* AtlasSea qui démarre
Faisal : ne pense pas être impliquée
* AtlasSea données génomiques, non images, voir Erwan Corre
### EMERG'IN Edouard Guitton
* lutte contre les maladies infectueuses
* données :
* phénotypages in vivo
* qques Go, données brutes les +grosses
* formats standards
* ...
* imagerie in vivo ex-vivo
* Mo au To
* télémétrie et analyse de comportement
### F-CRIN ?
### FLI ?
### France Génomique Laurent Jourdren / Claire Kuchly / Aude
* infra distribuée
* chaque PF a sa propre politique de gestion de données
* données humaines ou environmentales
* 3 structs ENS Genoscopie ...
* Périmètre infrastructure France Génomique : 11,7 Po (2020) → 23,4 Po (2025)
* données RNASeq
* qques Go par échantillon, 10-20Go pour long read
* formats standards
* données brutes à conserver pour éventuel re-traitement
* FAIrisation :
* scRNASeq (transcriptomiques)
* 200go pour lectures longues !!!
* Genoscope & CNRGH
* voir slides...
* données brutes Illumina
* volumes +++
* formats standards
* entrepôts ENA ou NCBI, voir data brokering IFB
Grégoire :
* lien entre France Médecine génomique et France génomique ???
* aucun d'une manière formelle du moins ...deux infras différentes
### France Cohortes
* Grégoire Rey, directeur
* hébergement (bds)
* volumétrie : de Mo au To
* capacité max d'hébergement 130To
* formats
* données structurées
* mariadb, outil SaaS (propriétaire)
* stockage : DSI au CINES
* très encadré par la loi
* homologation CNDS (???) pour le stockage grâce au CINES et à l'ANS
* FAIRification
* partenariat ANS
* accompagnement choix de standards
* documentation : standard DDI (recommandé par l'INSEE)
* canaux de transfert sécurisés vers HDH
* travail sur données synthétisées (puisque données sensibles)
### FRISBI Gerlind
* 5 sites
* biologie intégrée
* imagerie
* volumétrie très importante
* formats standards
* cristallographie
* autres données
### Institut du Cerveau
* Stéphane Chaillou (CIO), Stephen Whitmarsh (Data Analysis Core facility)
* spécialisé en neuroscience
* plusieurs PFs collection donnees
* neuroimagerie
* MRIs 1, 3T, 7T
* large volumes : Po
* several data management tools + in-house
* FAIRification at time of publishing
* Currently reinforcing FAIRification and data harmonization across neuroscience datasets
* sequencing
* use HPC (Illumina DRAGEN)
* ensure reproducibility (docker, SnakeMake, etc...)
* clinical
* no health data but close relationships with hospitals
* REDcap (eCRF support) for clinical research data
* Developement of solution to manage pseudonymisation and integration with REDCap (eCRF)
### IDMIT
* Brice Targat
* 2 sites: CEA/FAR pour la partie préclinique et Hopital de Bicêtre pour la clinique
* données très variées
* peu de formation FAIR
* tout reste à faire (FAIRe)
* volumes variés aussi (Mo à la 100aine de Go pour les données brutes, To pour les ultra-brutes)
* stockées sur des serveurs (sauvegarde/archives) et dans notre LIMS (BATLab)
* cytométrie (flux et masse)
* imagerie (TEP/TDM, Microscopie)
* problématique des images DICOM
* autres (ELISA, MSD, qPCR, bacteriologie, Luminex, Elispot ...)
### IFB Jean-François
* avec Paulette
* et Christophe Bruley
* IFB infra d'analyse
* données omiques à haut débit
* construction de référence génomique
* données analysées diverses
Gerlind
* quid de la perrenisation : changement de noms ?
* Claire : taxid (NCBI) qui identifie l'espèce
### MetaboHub
* Franck G., Mélanie
* spectrométrie de masse
* données de type "code", utilisation des standards classiques (Docker, GIT hub ou lab...)
* note : docker images removed from docker (fee paying now) onto Quay.io provided by Redhat
### ProFI Christophe Bruley
* Christophe co-dirige une des 3 infras de protéomique
* Etude des données de spectrométrie de masse
* Depuis la spectro on assure tour le flux d'analyse, et on ne fournit pas les données bruts en général, mais que les données analysées
* un site produit 50Go / jour en données bruts intermédiaire. mais les données finales sont plus petites. Un projet peut monter à un To de données
* Formats complètement standards
* l'acquisition, le traitement et le stockage reposent sur les ressources d'hébergement des instituts des sites concernés, pas de besoin de mutualiser. Une parties des outils sont toutefois mutualisés.
* Les standards de FAIRisation sont consolidés depuis 2004 (PRIDE puis ProteomExchange qui est un consortium)
## La suite
Comment on travaille ? quel groupe ? quel
Panorama des données, outils liés aux données :
Catégoriser les différentes données (storage tools, data management tools, sharing tools...) qu'est ce qu'il manque, comment c'est analysé ?
Logiciel gestion, partage, collection
=> document partagé ?
Stephen
* maybe separate legal issues from infrastructue issues, ie pinpoint the important points/questions we are confronted with
* Isabelle propose une rencontre avec les DPOs, CNIL, son homologue du Ministere de la Sante, un temps dédié à ce sujet
Stéphane
* ne pas oublier les formats, divers niveaux de maturation
* tendre vers une harmonisation ... re le CRT --> adoption de standards proposés par nous même, que nous avons partagé
Jean-Francois:
* faut impliquer la communaute, trouver une strategie pour faire cela
Stephen:
* who organises the 2-days meeting
Jean-Francois:
* faudra faire reunion de preparation avec l'implication de tous dans la construction du programme