[toc] https://mosig.imag.fr/SMEE/SMEE # Scientific Methodology and Experimental Evaluation 36 hours = 24$\times$ 1.5 hour sessions ## Teachers - Arnaud Legrand (Open Science, Reproducible Research) - Jean-Marc Vincent (Markovian Models, Performance Evaluation, Epistemology, Tracing, Simulation) - Élise Arnaud (Design of Experiments, Data assimilation, Sensibility Analysis) - Céline Coutrix (Human Machine Interaction, Consent forms) ### Other potential speakers (to decide): - **Thierry Menissier (philo, chaire éthique IA)** - Théodore Christakis - Gilles Bastin (journalisme, médias) - Hans Rocha IJzerman (psycho, socio, pre-registration) - Jean-Charles Quinton (comité éthique, pôle grenoble-cognition) stat - psycho - Vincent Brault (sondage) ## Syllabus The course aims to provide the fundamental basis for a sound scientific methodology of experimental evaluation in computer science. This lecture emphasizes on methodological aspects of measurement and on the statistics needed to analyze computer systems, human-computer interaction systems, and machine learning systems. We first sensibilize the audience to reproducibility issues related to empirical research in computer science as well as to ethical and scientific integrity aspects. Then we present tools that help address the aforementioned issues and we give the audience the basis of probabilities and statistics required to develop sound experiment designs. The content of the lecture is therefore both theoretical and practical, illustrated by a lot of case studies and practical sessions. The goal is not to provide analysis recipes or techniques that researchers can blindly apply but to make students develop critical thinking and understand some simple (and possibly not-so-simple) tools so that they can both readily use and explore later on. ### Evaluation process (MCC) - Final exam: 1/2 - Continuous assessment: 1/2 ### Prerequisites The lecture is self-content and targets 2nd year master students in computer science. We will mostly use the R language during the lecture but most programs will be a few lines of script and we will provide references to learn the basics. ### References - Last year's series of lectures: https://github.com/alegrand/SMPE/tree/master/sessions/2020_10_Grenoble - The “Reproducible research: Methodological principles for a transparent science” MOOC: https://learninglab.inria.fr/en/mooc-recherche-reproductible-principes-methodologiques-pour-une-science-transparente/ ### Materials upon which we will build (for the record) - Slides: https://github.com/alegrand/SMPE/tree/master/sessions/2020_10_Grenoble - MOOC: https://learninglab.inria.fr/en/mooc-recherche-reproductible-principes-methodologiques-pour-une-science-transparente/ - Last year's exam: http://polaris.imag.fr/arnaud.legrand/misc/SMPE_2020.pdf - An other lecture with interesting practical session ideas: Teaching the why and how of replication studies? https://twitter.com/FORRTproject/status/1391010871250391040?s=09 - Robert Gramacy's book on surrogates: https://bookdown.org/rbg/surrogates/ - Virtual Library of Simulation Experiments: Test Functions and Datasets https://www.sfu.ca/~ssurjano/index.html ## Tentative Program (in construction) Here are the topics that will be covered during the lecture. The exact order and division is still under discussion. * Épistemology, publications, éthique/intégrité/déontologie - Computer Science is an Experimental Science: Randomness is unavoidable whenever human beings are involved but can also not be ignored anymore given the complexity of modern computer systems (network, cpus, hardware/software stack) or when working in a machine learning context which relies on observational data and remains empirical. - Science is defined by its method, not by its results: Claude Bernard, Karl Popper, Kuhn, Lakatos, ... - Credibility crisis, Ethics, scientific integrity, deontology * Open Science and Reproducible Research - Laboratory notebook - Version control and archiving - Data management - Computational document (jupyter, Rstudio, orgmode) - Software environment control (containers, package management systems) - Ethical and legal data usage (data management plan, consent form, ...) * Exploratory Data Analysis - Data curation (missing data, outliers, typing issues) - Data visualisation and hypothesis checking - Data processing pipelines - Communicating results * Introduction to statistics - Random variables, central limit theorem, confidence interval, statistical test - Bayesian framework: Bayes rules, Maximum likelihood vs. Posterior sampling, Credible interval, Hierarchical modeling principles (exemple with clustering) - ANOVA, Linear regression and extensions (mostly logistic) - Gaussian Process * Observation vs. Experiment - Correlation, Causation: mostly "dont's" - Notions of bias (statistical, experimental, observationnal/sampling, etc.) - Metrology: measurement and tracing, precision, practical computer science issues and tools - Counter-factual/causal analysis ?? * Experimental Design - Méthodology (fishbone, experiment structure) - Difference between quantitative/qualitative observational/experimental data/analysis - Sequential vs. incremental approach - 2-level factorial designs, screening designs, LHS/MaxiMin designs - Blocking - Active/online learning with bandits (\epsilon-Greedy, UCB, Thompson) and extensions (surrogates: GP-UCB, EI) # Planning Des blocs de 3h avec 1h d'activité (sur machine ou pas). - RR, viz, curation, journal, méthodo info/pratique (outils pratiques pour l'analyse de données) - Proba, inférence, test (outils théoriques pour l'analyse de données) - Mesure, Protocole, DoE (production de données) - Epistemo, éthique + Question et démarche scientifique à mettre au début, la question de la sémantique Idées: - Viz à découper en 3 fois - Exploratory Data Analysis (stats descriptives) - Communication - Test hypothèse - La notion d'"outlier" 1. 30/09/21 [JMV, AL] Méthode scientifique | présentation MOOC - Définition de la science par ses méthodes (pas la partie objet social, on la mettra en lien avec éthique et intégrité scientifique plus à la fin) - Variabilité et motivation: machines, code numérique, humains (du plus artificiel au plus naturel). Les mêmes outils d'analyse et de plans d'expérimentation - Ccl: L'informatique peut/doit être considéré comme une science expérimentale, pas uniquement comme une science formelle, et il faut se doter des bons outils. - [TODO] - [TODO] MOOC: Faire modules 1 (cahier de notes, markdown, contrôle de version) et 2 (document computationnel sauf exo5) pour la semaine prochaine Semaine de travail personnel 2. 14/10/21 [JMV, EA] Visualization EDA | Warning correlation-causalité, spurious correlation - intro sur qq graphiques/video (cibler sur 3 ou 4 pb) JM (+E) je cherche des exemples en computer science - représentation graphique pour analyser les données ?? - quelles représentations pour quelles données (univarié) (E) - exercice en univarié E (+JM ? ) - checklist for good graphics (JM) - exercices : graphiques à commenter + autres - Exercice pieds et fautes E - multivarié : représentations E - corrélation (causalité ?) E+ JM ? - - Viz de type Exploratory Data Analysis, multi-varié, time series, éventuellement réalisées par des individus différents. - Séance pratique: observational data (exo avec besoin de data curation, utilisation de jupyter via le MOOC ou via le jupyterhub de gricad ou Rstudio) - Ccl: - Big fat warning avec cette démarche - EDA = créér des hypothèses: - Biais lié à notre contexte personnel (on ne va pas tous générer les mêmes hypothèses). Confirmation bias. - Apophenia - Données mal collectées (avec un biais très important) - ~~Données crades, sans sémantique, mal encodées?~~ - [TODO] MOOC: exo5 de module 2, module 3 et 4 (pas les exos) ; 3. 21/10/21 [JMV, AL] Curation, dplyr (exo avec documentation de l'ensemble) | Gestion de données 1 (file organization, file formats, gestion de version, git annex/datalad) - Correction exo5 du module2 (challenger) - [TODO] Remettre analyse prénom au propre avec curation et document computationnel propre - [TODO] MOOC: Commencer évaluation par les pairs du MOOC, deadline de rendu dans 2 ou 3 semaines. 4. 28/10/21 [JMV, CC] Beautiful Viz + ggplot (amélioration de ce qui a été fait précédement) | Gestion de données 2 (science ouverte, archivage, **plan de gestion de données**, anonymisation/cryptage, consent form) - [X] Demander à Cécile Arenes (elle va m'envoyer ses slides) - Autre ref sur l'évaporation des données (pas juste des URLs): https://twitter.com/flodebarre/status/1436384555389358082?s=09 - https://doranum.fr/plan-gestion-donnees-dmp/fiche-synthetique/ pour l'intro et des liens vers des ressources - https://dmp.opidor.fr/ pour l'aide à la rédaction et des exemples - Très léger, l'objectif est de faire changer les mentalités et les pratiques mais rien de coercitif ni de vérifié pour l'instant. - Publication « Guide de bonnes pratiques sur la gestion des données de la Recherche https://mi-gt-donnees.pages.math.unistra.fr/guide (relayé par Violaine Louvet) - Anonymisation, embargo, ... : https://about.zenodo.org/terms/ and https://help.zenodo.org/#policies. Attention à la licence. Éventuellement CC-By pas adaptées si consent form. - https://authorservices.taylorandfrancis.com/editorial-policies/research-ethics-and-consent/ - https://publishingsupport.iopscience.iop.org/is-permission-required-faqs-using-open-access-content/ - Références de Cécile: - Université Paris Lumières. 2019. « Fiches pratiques sur le Règlement Général pour la Protection des Données ». https://www.u-plum.fr/wp-content/uploads/2019/09/Guide-RGPD-2019-web.pdf - InSHS. 2021. Les Sciences Humaines et Sociales et La Protection Des Données à Caractère Personnel Dans Le Contexte de La Science Ouverte : Guide Pour La Recherche - V2. https://inshs.cnrs.fr/sites/institut_inshs/files/pdf/guide-rgpd.pdf. Ce second guide est plutôt orienté SHS, mais les questions traitées peuvent s'appliquer à d'autres disciplines. Il y a notamment un rappel des piliers du RGPD, notamment ceux utilisables dans le cadre de la recherche, ainsi que des modèles de fiches d'information et de formulaires de consentement pour les enquêtes. - MSH Lorraine. 2021. Ouvrir ses données. https://msh-lorraine.fr/wp-content/uploads/2021/08/Ouvrir-ses-donnees.pdf Je n'ai pas encore lu ce guide paru avant l'été, mais Lionel Maurel, juriste que vous suivez peut-être sur twitter, le recommande - [TODO] Remettre au propre analyse prénom avec provenance/"archivage" des données et explicitation des dépendances logicielles. - [TODO] Continuer évaluation par les pairs Vacances + Armistice 5. 18/11/21 [AL|JM + CC] Mesures et instrumentation, prise de conscience de la variabilité, des problèmes de non stationarité et des problèmes de contrôle (est-ce que ma mesure est en train de dériver et sort du cadre qui m'intéresse, la notion de condition "normale" d'utilisation), de reproductibilité expérimentale. **à discuter avec Céline** - Travail en binôme, début de réalisation en séance (exo: notebook avec expérimentation, notebook avec analyse) - Quicksort parallèle (sequentiel vs. parallèle et taille du tableau) - Mesure en "IHM" réalisable sur un temps court ? 6. 25/11/21 [AL|JM + CC] Prise de conscience des nombreux paramètres non identifiés (fishbone), de la variabilité, et pour les plus pointus du fait que la mesure est pourrie, et du manque d'arsenal mathématique pour répondre aux question les plus simples (code sans intérêt) - analyse/visu des données expérimentales récupérées à la séance d'avant (avec paramètres continus discrets) - [TODO] exo: prise de conscience de la variabilité "inter-labo" en répliquant l'expérience d'un autre - [TODO] On donne l'app shiny qui simule des mesures expérimentales et ils peuvent commencer à jouer avec. - Plusieurs "modèles" possibles - en binôme, vont jouer à expérimenter/analyser/interpréter sur les 5 prochaines semaines et faire un rendu montrant comment ils réinvestissent ce qu'on a vu Probas, CLT et test via un IC. - anecdote rigolote à utiliser ? https://twitter.com/nholzschuch/status/1436739620620935175?s=09 7. 2/12/21 [EA | AL ?] Modèle linéaire (toute la séance) - [TODO] Prévoir un rendu pour les forcer à manipuler et à apprendre à lire ce genre de sorties. Pour ça, s'appuyer sur l'app shiny - Insister sur https://twitter.com/arnaudlegrand17/status/1432981192983433217 qui permet de rappeler le risque dans des études observationnelles. https://web.archive.org/web/20210830115730/https://scienceetonnante.com/2021/08/30/les-etudes-statistiques-sont-elles-hors-de-controle/ 8. 9/12/21 [EA] Multiple testing et ANOVA (p-hacking) | DoE séquentiel (screening, D-opt, LHS) - [TODO] App shiny 9. 16/12/21 [EA] Un peu de Bayesien (https://gitlab.inria.fr/alegrand/slides_bayesian_sampling/-/blob/master/bayesian_statistics_introduction.pdf), "Équivalence" entre la régression linéaire en fréquentiste et en MLE sous hypothèse Gaussienne, Ridge/LASSO comme régression linéaire bayesienne, sélection de modèles (AIC, BIC), Extension du modèle linéaire (régression logistique) ? - [TODO] App shiny 10. DoE avec enrichissement incrémental (Bandit, GP) | ??? - [TODO] App shiny 11. [AL, JMV, CC ?] Intégrité scientifique (HARKING, p-hacking, falsification de donée, plagiat, collusion) | ??? - https://twitter.com/MicrobiomDigest/status/1416838153583927304?s=09 https://twitter.com/MicrobiomDigest/status/1425477195141636105?s=09 - https://twitter.com/vardi/status/1410948462150139906 https://twitter.com/AndreasZeller/status/1420787486629015554?s=09 - https://twitter.com/ouvrirlascience/status/1411254714235228162 https://science-octopus.org/ f1000research - https://twitter.com/NousCamille/status/1413103024097140739 - https://cacm.acm.org/magazines/2021/6/252840-collusion-rings-threaten-the-integrity-of-computer-science-research/fulltext - https://twitter.com/AndreasZeller/status/1420787486629015554?s=09 - https://twitter.com/emollick/status/1445921758687731716?t=jD5BMQoco2j8AD8cZ8pvXQ&s=09 12. [TM] Éthique (IA et humain, enjeu climatique, enjeux sociétaux, les utilisateurs du HPC = pétrole/finance/défense, GAFAM) Bien définir les choses: - Éthique: réflection aux valeurs qui motivent nos actes et leur conséquences (sens moral et désaccords possibles) - Intégrité scientifique: code de bonne conduite gouvernant nos pratiques de recherche, notion de confiance et condition indispensable à la crédibilité de la science, dépendant d'une discipline à l'autre. Rrègles permettant d'assurer la qualité de notre recherche(manipulation/falsification de donnée, etc.) - Déontologie: voir rentrée du CoNRS (auteurs et crédits, conflits d'intérêt, discrimination, etc.) Pour une présentation générale: - Olivier Le Gall (INRA) en 2019): http://fr.ethics-and-integrity.org/?p=1020 https://drive.google.com/file/d/15zfLUiWTgk390lyU6DGciNnwnVG-4Fr8/view - Voir aussi http://cerna-ethics-allistene.org/digitalAssets/48/48627_Proposition_formation_ethique_CERNA.pdf Histoire: - Séminaire de Carole Peyrin sur l'histoire de l'éthique de la recherche https://pod.univ-lille.fr/video/16631-s12-histoire-de-lethique-de-la-recherche/ (les sacrifiés de l'Alabama et la syphylis, relations sexuelles dans les toilettes publiques, ...). Mise en place de lois mais très orientées vers la médecine et qui laissent un blanc pour les SHS et l'informatique. Voir l'article de l'ACM aux US: common rule revision. regulation for human-field research. - Cas de G.E. Seralini sur les méfaits de maïs modifié: https://fr.wikipedia.org/wiki/Gilles-%C3%89ric_S%C3%A9ralini - Des lois qui encadrent la pratique pour protéger les citoyens, en particulier via la notion de consentement libre et éclairé, mais pas les finalités. La notion de responsabilité est pourtant à envisager à la fois sous l'angle rétrospectif (avez-vous bien mis en place ce qu'il convenait de faire ?) et prospectif (quelles sont les conséquences de mes actes). Le séminaire d'Alexandre Bretel, doctorant de Thierry Ménissier, sur la capacité à rendre des comptes (éthique et IA) était intéressant et Arnaud a les slides. - Actuellement des injonctions, des comités et des lois qui se cherchent encore: - Rapport corvol sur l'intégrité scientifique: http://cache.media.enseignementsup-recherche.gouv.fr/file/Actus/84/2/Rapport_Corvol_29-06-2016_601842.pdf - Obligation de formation aux questions éthiques [[file:journal_2011-2017.org::*Éthique et de la recherche en sciences informatiques et mathématiques][depuis 2016]]... Mais pas de moyens mis en œuvre. - Formations basée sur le travail de la CERNA: http://cerna-ethics-allistene.org/digitalAssets/48/48627_Proposition_formation_ethique_CERNA.pdf - Depuis 2016, réforme de la droite de 1983, article 28bis: tout fonctionnaire a le droit de consulter un référent déontologuqe cahrgé de lui apporter tout conseil utile au respect des obligations et des principes déontologiques mentionnés aux articles 25 à 28. - 25: le fonctionnaire exerces ses fonctions avec dignité dans le respect des .... Obligation de neutralité. Des termes sur la laïcité, liberté de conscience et dignité. Des points sur les notions de conflits d'intérêts, cumuls d'activité, ... - En pratique, il est question de: fraude scientifique, conflits d'intérêts, cumuls d'emplois, relations interpersonnelles, carrières, propriété des données, ... Donc ce n'est pas des quesion d'éthique mais de déontologie. De même, pas mal d'[[file:journal_2011-2017.org::*Editors requirements][Editors requirements]] n'ont rien à voir avec l'éthique mais sont plutôt de l'ordre de la déontologie (authorship, credit, etc.) - Argh, et ça continue de bouger: https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000044411360 - https://www.acm.org/code-of-ethics intéressant mais encore une fois, flou et injonction. - Comité Consultatif National d’Éthique https://www.ccne-ethique.fr/fr/ (avis en français et en anglais) - Commission de réflexion sur l’Éthique de la recherche en sciences et technologies du Numérique d'Allistène http://cerna-ethics-allistene.org/ journée anonymisation apprentissage (2014) http://cerna-ethics-allistene.org/digitalAssets/54/54730_cerna_2017_machine_learning.pdf - Liste des thèmes qu'on peut vouloir aborder avec eux: + IHM + Photographie et traitement numérique de l'image ("amélioration" esthétique, deep fake, ...) + IA pour de la décision (capacité d'explication, biais d'entraînement, etc.; police de chicago, assurance/crédit, études) et la recommendation (produit, travail, concours de beauté, ...) + Fuite de données personnelles + Données de santé et télémédecine + Conséquences écologiques + Réseaux sociaux et Fake News (avec des conséquences visibles parfois très rapidement: Associated Press twitted the White House had been bombed and in 2 minutes, the dow jones had dropped by 100 points.) + Fracture numérique Une caractéristique commune des articles scientifiques actuels est la mise en avant systèmatique des aspects positifs de la recherche sans qu'il y ait aucune réflexion sur les externalités négatives. Il faut aussi à tout prix éviter de réduire ces questions au dilemne du tramway qui est un leurre intellectuel. Autres références: - Voir le séminaire de "Moshe Vardi; Technology is driving the Future but who is in the steering" 2019. - https://www.lri.fr/~chris/ - MOOC éthique de la recherche ? - Ethics: https://www.fun-mooc.fr/fr/cours/ethique-de-la-recherche/ - Scientific integrity: https://www.fun-mooc.fr/fr/cours/integrite-scientifique-dans-les-metiers-de-la-recherche/ - Open Science coming soon: https://doranum.fr/2021/06/01/mooc-science-ouverte/ - Le Mooc de Paris-Saclay Ethics et Stics ouvre du 1/02 au 5/03 … mais on doit pouvoir demander l'accès https://www.fun-mooc.fr/en/courses/ethics-stics/ - Recommandations pour l'investigation des méconduites en recherche, problèmes d'éthique: http://eneri.eu/wp-content/uploads/2020/04/Guide-ENRIO_fr.pdf - Manipulation par les graphiques et éthique: https://www.urban.org/sites/default/files/jan_26_2018_washingtondc.pdf ? - Manipulation par l'image numérique: ethics and computational photography. http://people.csail.mit.edu/fredo/tmp/FredoDurand_EthicsComputationalPhotography.pdf - Vidéo impressionnante: https://vimeo.com/83502019 - Interview Élisabeth Bik: https://soundcloud.com/user-982894834/why-do-researchers-sometimes-cheat-and-what-to-do-about-it - "In the US, scientific misconduct is defined as one of 3 things: plagiarism (stealing someone else's sentence or idea without giving credit)", falsification (you obtain result and change them), fabrication (completely made up results). It's a pretty rigid definition". - Cheating with figures: some people are not very good at photoshoping. - Power structure: solve this or I'll find another postdoc to do the job, so high pressure to deliver and incentive to cheat. In medicine, experiments do not always work, cells do not always grow, etc. and sometimes it works, sometimes it does not, sometimes it does not work as expected. If we force people to produce a maximum of paper in a minimum of time, then quantity matters more than quality. Especially when you have to write papers to get a position. People may be pushed to deliver the impossible. - New phenomenon and increasing problem ? There has always been fraud. Some people even write papers and sell them to others. Papermill in China (https://forbetterscience.com/2020/01/24/the-full-service-paper-mill-and-its-chinese-customers/) and completely fake papers. - Publishing negative results is important (e.g., this drug does not work) but it's hard. - Elisabeth is very exposed and receives threats on twitter. Often many fraudulent papers from the same person. Sad because often little action/response from the journals. - Any estimate of the damage ? Hard to tell but some papers have made a lot of dammage. - Measles Mumps Rubella vaccine causes autism in young children. - Wakefield A, Murch S, Anthony A, Linnell J, Casson D, Malik M, et al. RETRACTED: Ileal-lymphoid-nodular hyperplasia, nonspecific colitis, and pervasive developmental disorder in children. Lancet. 1998;351:637-41. - Despite the small sample size (n=12), the uncontrolled design, and the speculative nature of the conclusions, the paper received wide publicity, and MMR vaccination rates began to drop because parents were concerned about the risk of autism after vaccination. See https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3136032/ - 12 years of investigation. Falsified data. - People don't believe in vaccine and Wakefield contributed to that by that paper. - HCQ paper from Didier Raoult has done a lots of damage as well. The paper is still not retracted. Sources d'inspirations: - Making the users perform gestures through electrically stimulating the user’s muscles, e.g., https://hpi.de/fileadmin/user_upload/fachgebiete/baudisch/projects/mobile_force_feedback/muscleplotter/1_MusclePlotter_CameraReady_UIST16.pdf or http://plopes.org/wp-content/uploads/papers/2015-CHI-AffordanceLopes.pdf - une app basée sur les travaux en computer vision et graphics, basée sur StyleGAN https://fr.wikipedia.org/wiki/StyleGAN : https://www.vice.com/en/article/kzm59x/deepnude-app-creates-fake-nudes-of-any-woman - https://marcteyssier.com/ de l'IHM Bizarre et dérangeante :) - https://cacm.acm.org/video-highlights - https://cacm.acm.org/magazines/2021/12/256933-software-defined-cooking-using-a-microwave-oven/fulltext - https://cacm.acm.org/magazines/2021/12/256930-digital-agriculture-for-small-scale-producers/fulltext - https://cacm.acm.org/magazines/2021/11/256376-filtering-for-beauty/fulltext - https://cacm.acm.org/magazines/2021/12/256943-trouble-at-the-source/fulltext - https://www.ccne-ethique.fr/fr/publications/donnees-massives-et-sante-etat-des-lieux-prospective-et-nouvelles-questions-ethiques Choses manquantes: conteneurs - https://twitter.com/vsoch/status/1422770127863369736