owned this note
owned this note
Published
Linked with GitHub
# jrfrr-2024 : Journées du Réseau National de la Recherche Reproductible
26-28 mars 2024 Saint Martin d'Hères,
Notes par Fabien Chauveau & Gaëlle Leroux
https://jrfrr-2024.sciencesconf.org/resource/page/id/1
pad ouvert lors des journées : https://semestriel.framapad.org/p/jrfrr2024-a6iy
https://www.swissrn.org/news/swissreproducibilityconference2024registration/
---
CR pour le Club IS (29/03/2024) :
1) 2ndes journées du réseau qui se formalise avec soutien financier du MESR
Force : vraiment très pluridisciplinaire, même si copil très info/bioinfo
160 pers dans la mailing-liste, environ 60+70 sur place sur 3 jours
Point faible : pas fonds propres, GT en cours mais pas assez de pers
2) Prés marquantes :
**Ulf Toechl, Charité Univ à Berlin, QUEST framework**
deep vs broad actions
https://quest-dashboard.charite.de
educational materials : https://www.crs.uzh.ch/en/training/Bespoke-Course-Offers.html
to measure the impact of those quanti & quali measures over time
==> Eva Furrer, Univ Zurich
about the "broad" training (all disciplines PhD students & Post Doc at the same time in the room)
https://www.reproducibility.ch/#agenda
**Dominique Muller, Pr Psycho sociale, UGA**
Solutions proposées / pratiquées :
Registered Report
stats bayesiennes
pré-enregistrement a minima
augmentation du nb d'études de réplications publiées
augmenter la taille du n
études multicentriques, especially in diverses populations, nont only white, anglo-saxons culture
& profil recherche MCU/PU avec questions à audition (idem à Nanterre)
**Estelle PUJOS-GUILLOT, INRAe de Clermont-Ferrand**
Métabolomique
Sources de variation dans la chaîne des data
**Jonathan Schaeffer, Grenoble**
Sismologie
'Protocole de correction des données ou des méta-données' : inscrit dans les métadata
ORCiD pour people
RE3DATA pour centre de données
RoR pour les organismes impliqués
**Andrew Goetz, au synchrotron de Grenoble**
Reproducibility in Photon Science
FA ok, pas encore IR
carbon footprint of data@ESRF
https://oscars-project.eu/oscars-first-open-call
**Collab SWH & IPOL** (fondée en 2009, Centre Borelli @ Saclay)
Publication = article + source code + data as a whole
**Démo GUIX & package R/SWH**
**restitution des GT**
Formation : sur 40 réponses ; 2-20 heures, mainly depuis 2020/2022, pas massif ; volonté de mettre en commun supports de cours/former les formateurs
Notebook : trusté par les SHS
2 MOOC recherche reproductible : matériel pédago à disposition pour réutilisation
Futur Collège National/Europe (à scinder pour éviter épuisement)
Pas de leader déclaré so far
Fabien Chauveau, Sabrina Granger (SWH), Sorina Pop (Creatis) (côté Lyon)
& Etienne Roesh (Univ Reading) + autres à Paris
Tâches :
relation avec réseaux européens
recenser initiatives européennes
veille sur les appels à projet
contact avec noeuds nationaux
contact avec éditeurs
...
Futur collège transverse d'animation sci du réseau
Futur collège transverse "veille biblio et événementielle"
**3èmes journées en 2025** : à Lyon avec CRNL, CREATIS (Sorina Pop) & labo biométrie & biologie évolutive (Aurélie Siberchicot)
---
---
## Mardi 26 Mars : "Introduction générale, contexte français et européen"
### Introduction sur le réseau français, historique, objectifs, initiatives [Membres du comité de pilotage]
Frédéric Lemoine
retour sur 2023 (110 personnes)
Céline Acary-Robert
"FR RepNet" ?
160 abonnés sur mailing-list du réseau https://listes.univ-grenoble-alpes.fr/sympa/info/recherche-reproductible
steering committee (5 pers) + 3 collèges transverses + GT spécifiques (à discuter jeudi matin)
Soutien ministériel avec 18 mois IR pour animation du réseau (pas encore pourvu)
### Science ouverte : de la transparence à la reproductibilité [Isabelle Blanc, MESRI, en visio]
Figure en triangle Multiple data / multiple researchers / multiple methods avec repro/reliability/robustness
open science & reproducibiity are major components of scientific integrity
influence aussi de la culture disciplinaire dans les causes de non-reprodutibilité
support du MESRI renouvelé
financeurs et editeurs meilleurs leviers ?
### Keynote: From local to national initiatives: How to make reproducible research the norm. [Ulf Toechl, Berlin Institute of Health QUEST Center for Responsible Research, Charité university]
GermanRN, like UKRN : mainly psychology & life/medical sciences (empirical sciences)
Charité = 600/700 pers
https://www.bihealth.org/en/research/research-groups?tx_solr%5Bfilter%5D%5B0%5D=institution%3AQUEST+Center
Figure 3 from Nosek 2022, (https://doi.org/10.1146/annurev-psych-020821-114157)
Michie & al 2011
https://www.researchgate.net/publication/51070630_The_Behaviour_Change_Wheel_a_new_method_for_characterising_and_designing_behaviour_change_interventions
QUEST framework :
https://www.bihealth.org/en/translation/innovation-enabler/quest-center
scientific integrity is kind of missing in the principles
https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000576
Drude & al, commentary
Finding the best for for improving reproducibility
"No one fits all" est leur devise
Broad actions: institutionnal training -> impact??
Review of topics which are given: ELN, systematic review, repro Res with R, ... to measure the impact of those quanti & quali measures over time
about training design 192/189 (methods, situation, orientation, level of diffiuclty)
learning & retention
work environnement (key!)
generalisation (n=33)
7 iterations of summer school (Oxford|Berlin)
RPX "Responsible PrecliniX" : to overcome challenges in translational biomedicine ("deep intervention")
with 1) metaresearch on translation as a science & 2) project "Specific Consulting"
==> 47 questions to assess translational research
exigences different from one discipline to another
Courses materials: https://www.crs.uzh.ch/en/training/Bespoke-Course-Offers.html
National RNs Strategy : osf.io/aq5je
Activities: joint publications with authors as local relays (review article, position paper, ...)
Virtual brainstorms, summerschool
Challenges: no funding, community focused, added value?, not enough people working dayly on it
more gouvernance body than action entity
Funders : IRISE, OSIRIS, TIER2 (Tony Ross!) (all EU)
https://osiris4r.eu/ (en F avec le programme LORIER de l'Inserm)
https://irise-project.eu/ (pas la France dans le consortium)
https://tier2-project.eu/ (idem, pas la France)
Impact to measure : like the BSO in France
indicators of robust research
tableau with validity/ease of measurement/generalisability/relevance
for criterions AS A MEASURE OF ROBUSTNESS like IF, expert peer-review, automated interpretation...
A FAIRE AU CRNL !! https://quest-dashboard.charite.de
9th summer school 2025 as a hub for RNs
for 1 week (comme cutting eeg)
Conclusion to make repro the norm:
- diverse set of low entry interventions need (broad vs "deep")
- Work environnement to be identified and mitigation strategies are needed
- RN to stregnthened
- measure impact & outcomes to convince people
--discussion
step-by-step with a strategy and a list of actions
list of ideas of (graded) actions for motivated students?
score the thruthworthy of proprietary object/black blocks of software/devices
according to the risk of bias
(Since 2017-1 ; importance of academic status to convince pairs ; accurate political timing when proposing to go into repro)
### Keynote : The Center for Reproducible Science at the University of Zurich [Eva Furrer, Center for Reproducible Science Managing Director, University of Zurich]
Slides : https://osf.io/drthk
https://www.crs.uzh.ch/en.html
https://www.swissrn.org/news/swissreproducibilityconference2024registration/
https://www.reproducibility.ch/#agenda Swiss RN conf en juin
focus on training in the talk over the 6-7 faculties
about the "broad" training (all disciplines PhD students & Post Doc at the same time in the room)
"repro clinic" with Q & A like alcooliques anonymes about the issues they face in their discipline
Major pb : not many students who register and many leave due to git use for example
"Primers" : short overview on a subject
CRS zenodo community
"UZH repro day" with keynotes & hands-on workshops on repro topics
"Scientifica" : science festival every 2 years, 2 univ
---
## Mercredi 27/03 matin : "Reproductibilité expérimentale"
### Réplicabilité et reproductibilité en psychologie expérimentale [Dominique Muller, LIP/PC2S, UGA]
à partir de quand on parle de réplicabilité : quand c'est aussi significatif ou quand taille effet identique ou quand mêmes conclusions ?
Parle de crise de repro & réplicabilité en psycho expérimentale
présentation de plusieurs études :
- l'une facilement réplicable
- une autre farfelue et avec post-publi ailleurs par réplication sans aucun effet
- exemple de Registered Replication Report (RRR) sur ego depletion (donut vs radis présentés sur un plateau devant partiipants sans avoir droit d'y toucher) avec 23 labos pour tester résultats d'un paradigme
Projet "open science collaboration" lancé par Brian Nosek
Estimating the reproductibility of psychological science (2015)
Réplication de 94 études : environ 50% avec seuil significativité retrouvé (même si la taille de l'effet est souvent moindre par rapport à l'étude originale)
Autre pres de Hardwicke & al (2018) sur 35 articles entre 2015 & 2018
63% où mêmes conclusions à partir des open data
Artner et al. 2020 où 46 auteurs contactés ont accepté de partager data (pas en open data de base) : 70 % ont pu être reproduits
Raisons de la non repro/réplicabilité :
- la fraude
- le paradoxe de la publication (Bakker et al 2012) car la puissance moyenne des études reportées est entre 35% & 50% : biais de publication
Solutions proposées :
- RR comme solution
- stats bayesiennes (et pas seulement fréquentistes) / autres tests
- la flexibilité dans l'analyse des data
Exemple d'une dénontiation en psycho expé du p-hacking
si on combine techniques de flexibilité dans l'analyse de data (2 mesures différentes, augmenter la taille du n, contrôle d'une variable en covariate)
- pré-enregistrement (OSF, AsPredicted, tag PreRegistered/open Data/Open Materials by the Editor)
- augmentation du nb d'études de réplications publiées
- augmenter la taille du n
- de + en + d'études multicentriques, especially in diverses populations, nont only white, anglo-saxons culture
Etude dans Nature Behav : High replicability of newly discovered social-behaviour
question about "equivalence testing" : needs much more participants
discussion :
conseil de labo a voté de préférer candidats avec connaissance & pratiques de science ouverte : dans chaque profil de poste MCU/Pr affecté au labo pour la partie recherche : il y a une phrase sur le fait que sera privilégié la connaissance et la pratique de la science ouverte.
1 question est systématiquement posée sur cela à audition : pour cette étude/cet article, pouvez-vous nous dire ce que, concrètement, vous avez fait en terme d'ouverture des data/codes/protocols & co
(proposition portée par un Pr, directeur du labo - l'orateur en l'occurence)
proposition reprise à Nanterre dans un labo également
+
le comité d'éthique local pour les études RIPH3 ont fait leur formulaire de sorte que les questions posées soient très similaires à celles posées lors d'un pré-enregistrement pour le faciliter.
### Reproductibilité expérimentale en métabolomique [Estelle PUJOS-GUILLOT, directrice scientifique de la Plate-Forme « Exploration du Métabolisme » MetaboHUB, INRAe]
Métabolomique : depuis 1999 (UK), intègre toutes les data omiques à l'échelle du métabolisme
Sources de variation dans la chaînes des data : Dudzik & al 2018 J Pharm Biomed Anal
Ex : saison, distance du repas, préparation manuelle ou robotisée, T°C de conservation des échantillons, encrassement des machines/métrologie
==> A FAIRE en IRM/NEUROIMAGERIE ?!!
(cf séminaire sur la métrologie en imagerie par Albertine Dubois dans le cadre de FLI
https://www.francelifeimaging.fr/formation/metrologie-appliquee-a-limagerie-in-vivo/?lang=en)
tests multicentriques en F mainly
2017 : création d'un réseau international (metabolmics Quality Assurance & Quality Control Consortium - mQAQCC) pour créer standard en métabolomique, définition des étalons sur matériel biologique & synthétique, bonnes pratiques
En pratique : avancement des pratiques
- préparation des échantillons : pas standardisés, définis localement
- pas de consensus sur la qualité (encore)
- approches analytiques (ciblées ou non ciblées des métabolites) : pas de normes, difficile mais tentative sur 5 centres en F de faire des dosages/quantifications absolus
- W sur normalisation / standardisation based on mesures bi-variées pour avoir variabilité inter- & intra- projet & algo pour corriger les sources de variation
Pb d'interopérabilité pour le nom des métabolite selon les bases de données
Nom chimique : standardisé mais pas human-usable
et incohérences entres databases
tentative d'algo pour naviguer entre databases
Entrepôts : phenotype database, COMETS analytics (cancero aux USA), métaboLights, MGnify (métaGénétique), Metabolomics workbench
Conclusions
1) transparence tout au long du workflow
2) indices de contôle qualité en interne
3) augmenter interopérabilité
4) data sharing & reuse (peu pratiqué en vrai)
5) une fois que tout sera partagé, permettra de faire de l'IA pour médecine prédictive
### Ré-utilisabilité des données : l'exemple de la sismologie dans Epos-France [Jonathan Schaeffer, Isterre, OSUG]
certificat Core Trust Seal
métadonnées de citation : datacite
'Protocole de correction des données ou des méta-données' : inscrit dans les métadata
ORCiD pour people
RE3DATA pour centre de données
RoR pour les organismes impliqués
TODO ? : recenser la citation des datasets dans les articles (DOI ou autre)
Pas repro mais plutôt "réutilisabilité" car les data & métadata peuvent changer, pas de versionning, pas de standard du domaine pour figer une version des données
Jusqu'à tout récemment, avait des volumes de données source très restreint et les nouveaux appareils les innonde : pas encore de mesures prises... adaptation à prévoir
### Reproducibility in Photon Science [Andrew Goetz, ESRF]
Au synchrotron de Grenoble
metadata standards : nexus/HDF5
Repo/databases : PDB - Protein Data Bank, COD, CCDC -Chemistry data base
survey : what's your opinion why it's important to share raw data & other on derived data?
ground truth, education purpose, peer-review, low resources labs, ...
but 20% only share their data in cristallo
Their journey to repro included:
1) data policies (embargo of 3 years, FAIR policies, etc.),
2) data repo (ICAT & SciCat with a federative search API accross all repo "data.paneosc.eu")
3) PID (DOI, ORCiD, RoR)
4) metadata standard for repro (Nexus, HDF5 + domain specific)
5) publishing raw data (data papers, journal dédié "raw data letters")
6) Training for FAIR data & repro
see also: human-organ-atlas.esrf.eu
Data can be: raw, processed, auxilliary, results, derived (aka uncontrolled reused)
Conclusion : how FAIR are your data in photon facilities F & A (not yet for I & R)
carbon footprint of data@ESRF (raw data storage, transport of scientist to come to ESRF to use data, archiving over 10 years)
https://oscars-project.eu/oscars-first-open-call : cross domain research Infra
Call Closure: 15th of May 2024, 17:00 CET
---
## Mercredi 27/03 après-midi : "Reproductibilité computationnelle"
### Café Guix Live Introduction à la reproductibilité des environnements de calcul : construction de paquets et liens avec Software Heritage [Ludovic Courtès, Inria Bordeaux / Pierre-Antoine Bouttier, Gricad]
contrôle limité sur environnement matériel
mais on a la main sur l'env logiciel (i.e. maîtriser les dépendances)
gestionnaires d'env logiciels
associés à des systèmes d'exploitation : apt-get, yum
associé à un langage : pip, npm
généralistes
fait à la repro comme guix, car portable & repro dans l'espace & le temps
Note : les containers ne g_rement un env logiciel. On utilise un gestionnaire de logiciel dans le container
paquet GUIX : fichier text de config des instructions & dépendances pour installer un logiciel
channel guix : dépôt git contenant un ensemble de déf de paquets
répertoire unique : /gnu/store
& liens symboliques vers /home/utilisateur
que sous linux
manifest.scm pour lister tout ce qu'il faut installer, versions
utilisation de guix shell (similaire à l'utilisation d'un container ; n'installe rien dans espace utilisateur) qui permet d'être isolé de l'env de la machine sur laquelle on travaille
faut aussi décrire l'état de définitions/du graphe des dépendances ghuix -describe -f channels >> channels.scm)
env logiciel complet avec channels.scm & manifest.scm
peut se faire en 1 commande avec guix time-machine
pour l'appliquer : guix time-machine -C channels.scm -- shell - C -m manifest.scm
si pas guix installé sur machine, on peut créer un container ("-- pack") (format de sorte : docker, tar.gz ou sif)
coût pour utilisateur : empaquetage des logiciels nécessaires à l'utilisateur (now : > 50 000 logiciels empaquetés guix)
et lien avec SoftWare Heritage (SWH), jupyter
Pas de passerelle directe entre Conda & guix
mais oui pour les paquets dans pip (python)
--- Pres par Ludovic Courtès pour lien avec SWH
info de SWH grâce à un identifiant de commit => même si le code dans git est bougé et plus dispo, la référence au commit sans SWH permet de télécharger le code nécessaire
## Software Heritage and IPOL, a fruitful collaboration toward reproducible research [Miguel Colom-Barco, ENS Paris Saclay]
IPOL : revue fondée en 2009, Centre Borelli @ Saclay
Publication : article + source code + data as a whole
under FOSS licence (https://en.wikipedia.org/wiki/Free_and_open-source_software)
## Tutoriel : Dépôt d’un package R sur Software Heritage et référencement sur HAL [Florent Chuffart, IAB (INSERM/CNRS), RIS (MITI/CNRS), CoSO (MESR)]
## Table ronde : problématique de la reproductibilité en IA, animée par Arnaud Legrand
Alexis Arnaud (GRICAD, UGA)
Ninon Burgos (Aramis, CR CNRS) Deep learning, img médicale à l'ICM
Ambre Davat (IPhiG & chaire « éthique & IA » UGA)
Arnaud Legrand (LIG, CNRS/UGA)
Jean-Luc Parouty (SIMAP, CNRS/UGA)
Didier Schwab (LIG, UGA)
nvidia & king's college : développent library pour deep library img medicale
https://developer.nvidia.com/blog/kings-college-london-accelerates-synthetic-brain-3d-image-creation-using-ai-models-powered-by-cambridge-1-supercomputer/
https://ninonburgos.com/software/
---
## Jeudi 28/03 matin : “Formation” et Gouvernance
### Restitution du GT formation [Frédéric Lemoine, Institut Pasteur]
Résultats du sondage national (07-09 2023) sur : Cours, Formations & Publics & niveau visés
40 réponses
rennes, paris, lorraine, clermont, lyon, nice, grenoble, montpellier, corse
Types de repro enseignées :
14 : OS / 9 éthique / 8 computationnelle (Git, Notebook, workFlow, Containers) / 7 stats / 7 empirique / 4 autres (méta-analuse, métarecherche, esprit critique)
OS & autre en même temps
1ers cours en 2020 mais surtout à partir de 2022
entre 2 & 20 heures en gros
Conclusions : comment enseigner massivement / rendre obligatoire ? / mettre en commun support
Suite : publier les résultats sur le site rech-repro; maintenir la liste des formations ; animer le gt
Au même titre que éthique, "faudrait que" formation obligatoire en science ouverte et reproductibilité
### Restitution du GT notebooks [Raphaëlle Krummeich, Université de Rouen, Sébastien Rey-Coyrehourcq, Université de Rouen]
Slides : https://hackmd.io/@gtnotebook/ryClWWlyC#/
https://hackmd.io/@gtnotebook
copil pluridisciplinaire
charte en cours pour que reste un espace d'échanges, sans rôle assigné
axes de réflexion : épistémiologique, écosophie, litératie numérique, reprodcuctibilité comme axe transversal
webinaire mensuel avec diffusion du canal U (5 en 2023)
5 en 2024 avec thèmes SHS
journée étude automne 2024
"workflow synchrone (hackmd & visio) et workflow asynchrone (git/gitlab)"
https://quarto.org/
### Retour d'expérience sur le MOOC recherche reproductible [Konrad Hinsen, CBM]
https://www.fun-mooc.fr/fr/cours/recherche-reproductible-principes-methodologiques-pour-une-science-transparente/
depuis 2018, en F et en GB
3 parcours au choix : avec jupypter/python (63% choix), R(31% des choix) et reste sur emacs
en 2018 : sur 2 mois, 3600 inscrits/291 attestations (8% ; proportion classique)
depuis 2020 : ouvert en permanence
86% en France ; 19-35 ans ; 50% Master students
la suite dans un 2nd mooc :
https://www.fun-mooc.fr/fr/cours/reproducible-research-ii-practices-and-tools-for-managing-comput/
ouvrira 16/05/2024, que en GB
to manage data, software & computation resources
du notebook au workflow
Les 2 mooc : licences CC => incitation à réutiliser matériel pédagogique
### Discussion autour des GTs : fonctionnement, besoins, attentes
### Gouvernance, comité de pilotage, discussion sur la structuration du réseau
contacter le copil pour soutien financier / moyens de com (forum, mailing-listes, etc)
objectif/récompense des GTs à garder en tête : publication (guides, review, meta-analyse, position paper)
Futur Collège National/Europe (à scinder pour éviter épuisement)
Pas de leader déclaré so far
Fabien Chauveau, Sabrina Granger (SWH), Sorina Pop (Creatis) (côté Lyon)
& Etienne Roesh (Univ Reading) + autres à Paris
Tâches :
relation avec réseaux européens
recenser initiatives européennes
veille sur les appels à projet
contact avec noeuds nationaux
contact avec éditeurs
...
Futur collège transverse d'animation sci du réseau (Paris, Grenoble, Montpellier, Toulouse)
Futur collège transverse "veille biblio et événementielle"
Nicolas Rougier & Valérie Orosco (Toulouse)
Zotero
questions sur les missions & les liens entre GT & la plénière
### Conclusions
2025 : à Lyon
2026 : à Saclay