![](https://hackmd.io/_uploads/ByUrn9Gt3.png) ## Notes du tour de table par INBS ### présa Isabelle Blanc RDG * recherche.data.gouv.fr * isabelle.blanc@recherche.gouv.fr * I.B. porte la politique PNSO données et codes source * création de Recherche Data Gouv (acronyme à éviter) : un écosystème au service du partage et de l'ouverture des données * ambition : LPRN 2016 -- droits positifs -- * art. 30 : conditions d'ouverture, ie 50%+ financement public * ouverture de l'ensemble des produits de la recherche : publication, data, logiciel * concevoir nativement des données reutilisables : see FAIR principles * RDG : accompagner les équipes dans cette démarche * note : taux de citation des données re-utilisées +25 +75 % (ie données partagées ou ouvertes) * donnee partagee reconnus comme une production de la recherche * Données partagées : métadonnées ouvertes et données accessibles en accès restreint * Données Ouvertes : données sources ouvertes * RDG lancé il y a deux ans * solution d'accompagnement dans cette démarche : gestion et ouverture des données * autres pays : initiatives au niveau national, eviter l'éparpillement * créer un maillage d'offres d'accompagnement en proximité de la recherche * un seul entrepôt et catalogue qui peut fédérer, complémentaire aux entrepôts thématiques, aussi pour données 'orphelines' * une alternative aux PFS commerciales pour les publications * entrepôt mutualisé * accompagnement : * ateliers de la donnée : expertise de proximité et généraliste * autour des universités... * 15 ateliers opérationnels, 10 en projet * aussi, CRTs : centres de référence thématique : bonnes pratiques, standards, ... 6 CRTs * de plus, 4 centres de resources (comme OPIDoR) * donc tout cela construit l'écosystème * donc : privilégier l'accompagnement plutôt que proposer une solution technique * gouvernance collective * Métier de la données * Difficulté de reconnaitre les acteurs en lien avec les métiers de la données. * Peu de formations initiales et encore moins de formations continues. * Activités 'invisibles' * étude confiée à Anne Laurent UMontpellier * comprendre les pratiques * identifier les statuts professionnels * phase quantitative faite, phase qualitative en cours * rendue fin 2023 ? Objectif : description de l'ensemble des métiers => avoir des fiches de poste. Pour avoir capacité à recruter sur ce poste et reconnaitre ces activités. Un constat : beaucoup de ces activités est porté par les chercheurs eux même. Questions: Aude Perdereau France Génomique * pb avec RGPD, données génomiques & sensibles, données en santé * ? alléger les procédures ? * RGPD empêche ... est très handicapant * Isabelle B : * une PF d'harmonisation comme centre de resource juridique ; disponible fin 2023 * encore en phase de récolte de remontées... * aussi, dans RGPD : une tolérance re les données de la recherche https://www.cnil.fr/fr/recherche-scientifique-hors-sante * cadre européen * --> sujet en cours * PROGEDO : Q d'anonymisation & de pseudomisation : mise en commun d' outils * contact : Agnès Robin Grégoire (France Cohorte) * données de cohortes * propose son aide, collaboration, avec CNIL Stephen Whitmarsh (Paris Brain Institute) * coordination with CNIL important * genetic data & AI * how much is CNIL involved here? * what are the policies regarding genetic data * how can we move forward: e.g. by standarding language and mutual understanding Isabelle : * comment en tant qu'infra on peut se coordonner * pour être influent au niveau de la CNIL et EU * important : nous faire remonter les infos Grégoire * discute avec HealthData, cas d'usages * re genetic data and sharing ### FBI - Guillaume Gay * données de microscopie * volumétrie importante Go à To * grande prolifération de formats propriétaires, mais OME-tiff de bio.formats pour cadrer/standardiser cela * avec OME-ZARR nouveau format très gros volumes * gestion des données * disques durs, solution OMERO, MuDiS4LS, assez disparate * mise en place de OMERO + IRODs à l'échelle des mésocentres pour gestion et FAIRisation * initiative de QUAREP, voir article REMBI (minimal metadata) * Euro Bioimaging, entrepôts, ... infras internationalws très structurantes et supportives * données secondaires * OME-zarr + RO-crate * Stephen agrees ### ChemBioFrance - Fred Assié, Kiet Tran * Kiet Tran, F * volumétrie * Ko à Mo * données déjà nettoyées * formats ouverts * FAIRisation en cours de réflexion * PGD structure en cours de rédaction ### CELPHEDIA - Hamid Meziane * phenomin, une composante de celphedia * différents types de données * exploration fonctionnelle * 1-2Go * formats ouverts * gestion des données, BIOX, en accès ouvert openBIOX(3R) * FAIRisation : PGD structure * entrepôt, en accès ouvert * exploration comportementale * volumétrie plus importante ### EMBRC - France * soutient à la recherche * Villefrance : station marine, avec Banyls sur Mer et Roscoff * base de données OMERO mutualisée avec les autres stations, avec l'aide de IFB et FBI * travail PGD depuis longtemps (2018-19) * ANF gestion des données OMERO Montpellier Juin 2023 * encore beaucoup de travail à faire dans le domaine de la science ouverte * très gros volumes de données (microscopie, traitement d'images, modélisation, ... plus encore) * données très variées * aussi, REMBI.. Jean-François : * AtlasSea qui démarre Faisal : ne pense pas être impliquée * AtlasSea données génomiques, non images, voir Erwan Corre ### EMERG'IN Edouard Guitton * lutte contre les maladies infectueuses * données : * phénotypages in vivo * qques Go, données brutes les +grosses * formats standards * ... * imagerie in vivo ex-vivo * Mo au To * télémétrie et analyse de comportement ### F-CRIN ? ### FLI ? ### France Génomique Laurent Jourdren / Claire Kuchly / Aude * infra distribuée * chaque PF a sa propre politique de gestion de données * données humaines ou environmentales * 3 structs ENS Genoscopie ... * Périmètre infrastructure France Génomique : 11,7 Po (2020) → 23,4 Po (2025) * données RNASeq * qques Go par échantillon, 10-20Go pour long read * formats standards * données brutes à conserver pour éventuel re-traitement * FAIrisation : * scRNASeq (transcriptomiques) * 200go pour lectures longues !!! * Genoscope & CNRGH * voir slides... * données brutes Illumina * volumes +++ * formats standards * entrepôts ENA ou NCBI, voir data brokering IFB Grégoire : * lien entre France Médecine génomique et France génomique ??? * aucun d'une manière formelle du moins ...deux infras différentes ### France Cohortes * Grégoire Rey, directeur * hébergement (bds) * volumétrie : de Mo au To * capacité max d'hébergement 130To * formats * données structurées * mariadb, outil SaaS (propriétaire) * stockage : DSI au CINES * très encadré par la loi * homologation CNDS (???) pour le stockage grâce au CINES et à l'ANS * FAIRification * partenariat ANS * accompagnement choix de standards * documentation : standard DDI (recommandé par l'INSEE) * canaux de transfert sécurisés vers HDH * travail sur données synthétisées (puisque données sensibles) ### FRISBI Gerlind * 5 sites * biologie intégrée * imagerie * volumétrie très importante * formats standards * cristallographie * autres données ### Institut du Cerveau * Stéphane Chaillou (CIO), Stephen Whitmarsh (Data Analysis Core facility) * spécialisé en neuroscience * plusieurs PFs collection donnees * neuroimagerie * MRIs 1, 3T, 7T * large volumes : Po * several data management tools + in-house * FAIRification at time of publishing * Currently reinforcing FAIRification and data harmonization across neuroscience datasets * sequencing * use HPC (Illumina DRAGEN) * ensure reproducibility (docker, SnakeMake, etc...) * clinical * no health data but close relationships with hospitals * REDcap (eCRF support) for clinical research data * Developement of solution to manage pseudonymisation and integration with REDCap (eCRF) ### IDMIT * Brice Targat * 2 sites: CEA/FAR pour la partie préclinique et Hopital de Bicêtre pour la clinique * données très variées * peu de formation FAIR * tout reste à faire (FAIRe) * volumes variés aussi (Mo à la 100aine de Go pour les données brutes, To pour les ultra-brutes) * stockées sur des serveurs (sauvegarde/archives) et dans notre LIMS (BATLab) * cytométrie (flux et masse) * imagerie (TEP/TDM, Microscopie) * problématique des images DICOM * autres (ELISA, MSD, qPCR, bacteriologie, Luminex, Elispot ...) ### IFB Jean-François * avec Paulette * et Christophe Bruley * IFB infra d'analyse * données omiques à haut débit * construction de référence génomique * données analysées diverses Gerlind * quid de la perrenisation : changement de noms ? * Claire : taxid (NCBI) qui identifie l'espèce ### MetaboHub * Franck G., Mélanie * spectrométrie de masse * données de type "code", utilisation des standards classiques (Docker, GIT hub ou lab...) * note : docker images removed from docker (fee paying now) onto Quay.io provided by Redhat ### ProFI Christophe Bruley * Christophe co-dirige une des 3 infras de protéomique * Etude des données de spectrométrie de masse * Depuis la spectro on assure tour le flux d'analyse, et on ne fournit pas les données bruts en général, mais que les données analysées * un site produit 50Go / jour en données bruts intermédiaire. mais les données finales sont plus petites. Un projet peut monter à un To de données * Formats complètement standards * l'acquisition, le traitement et le stockage reposent sur les ressources d'hébergement des instituts des sites concernés, pas de besoin de mutualiser. Une parties des outils sont toutefois mutualisés. * Les standards de FAIRisation sont consolidés depuis 2004 (PRIDE puis ProteomExchange qui est un consortium) ## La suite Comment on travaille ? quel groupe ? quel Panorama des données, outils liés aux données : Catégoriser les différentes données (storage tools, data management tools, sharing tools...) qu'est ce qu'il manque, comment c'est analysé ? Logiciel gestion, partage, collection => document partagé ? Stephen * maybe separate legal issues from infrastructue issues, ie pinpoint the important points/questions we are confronted with * Isabelle propose une rencontre avec les DPOs, CNIL, son homologue du Ministere de la Sante, un temps dédié à ce sujet Stéphane * ne pas oublier les formats, divers niveaux de maturation * tendre vers une harmonisation ... re le CRT --> adoption de standards proposés par nous même, que nous avons partagé Jean-Francois: * faut impliquer la communaute, trouver une strategie pour faire cela Stephen: * who organises the 2-days meeting Jean-Francois: * faudra faire reunion de preparation avec l'implication de tous dans la construction du programme