owned this note
owned this note
Published
Linked with GitHub
# Journées annuelles SO-MATé 2025
https://jasomate2025.sciencesconf.org/?lang=fr
https://mate-shs.cnrs.fr/les-groupes/groupes-locaux/so-mate-mate-shs-sud-ouest-2/
## Mercredi 01/10/2025
### Présentation Reproductibilité
_François Ric (Pr Psychologie, Labpsy Bordeaux)_
La reproductibilité, c'est essayer de reproduire les résultats d'une recherche avec la même procédure.
Il y a deux types de reproductibilités :
- Reproductibilité statistique
- Reproductibilité computationnelle
Or, de la reproductibilité=fiabilité
Une manière aussi de vérifier des résultats. Pose plus largement la question de la fiabilité des données dans la science. Cela a t-il du sens sur tous les types de données ?
Comment répondre à cet enjeu de la reproductibilité des données si ces dernières sont quali ou encore attachées à un instant t.
#### Origine des problèmes de réplication :
1. Fraude : phénomène le plus visible mais en réalité plutôt marginal
2. Données fausses (notamment avec l'IA)
3. Trop grande confiance dans les résultats, que l'on embellit, donc difficile à repliquer
Est ce que c'est problème de reproductibilité ne serait pas aussi lié à des mauvaises "habitudes" méthodologique et statistiques ? Des mauvaises pratiques faites de bonne foi de fait biaisent nos résultats et les rendent non reproductibles :
5. Petite taille des échantillons=>instabilité donc plus difficile à répliquer, dû aussi au fait qu'on ne publie pas quand on n'observe rien (alors que l'on pourrait)
6. Méthodologie faible
7. Biais de confirmation
8. Manques de compétences sur une méthodo ou les outils et comment les utiliser dans de bonnes conditions
Une des solutions pour diminuer le risque de non replicabilité serait en réalité de réduire le "degré de liberté" du chercheur.
Finalement mettre en place des jalons ou garde fou méthodologiques. Mais cela est il faisable ? Le risque n'est il pas de renoncer à certaines méthodes, certains sujets, terrains... qui ne repondrait pas à ces critères mais s'avère malgré tout très intéressant

[(Munafo et al., 2017)](https://www.nature.com/articles/s41562-016-0021)
Risque de p-hacking
HARKing : On fait l'hypothèse après avoir les résultats, ce qui est contestable.
#### Solutions ?
1. La transparence : pré-enregistrement des études (hypothèses, procédure, ce qui sera exclut, taille de l'échantillon etc.)
2. Partage des données, du matériel et des scripts d'analyse
3. Système de badges validant que l'on a bien pré-enregistré une étude etc.
4. Certification des résultats par des bureaux d'analyses
:::warning
Quelle place de l'analyse exploratoire des données dans ce process de pré-enregistrement des données ?
:::
Est ce que la solution ne viendrait pas finalement de l'honneteté. Mise à disposition des données avec métadonnées et description du process en acceptant aussi la place de l'exploration des données et de l'évolution possible d'un point de vue. Accepter que nos première hypothèses peuvent être rejetés et qu'il est possible d'en développer des nouvelles.
Les revue ne sont elles pas aussi causes de cette crises en imposant toujours plus de publications et finalement ne publiant assez peu un processus de recherche complet mais uniquement des hypothèses validés et des process court
Sans parler des évaluations des chercheurs qui poussent à publier toujours plus.
#### Impact ?
Les résultats semblent plus stables (au moins en psychologie)
Taille des échantillons plus importante
Mais l'information pour pouvoir reproduire est toujours insuffisante
#### Q&A
- **Q1 : Quelle différence entre reproductibilité et réplicabilité ?**
- Reproductibilité = conceptuel
- concepts pas forcément clairement définis, les termes bougent encore. Il vaut mieux préciser si on parle des données, de l'étude...
- Proposition sur CAIRN *"la reproductibilité implique les données et le code d'origine ; la réplicabilité implique la collecte de nouvelles données et également l'utilisation d'un nouveau code des méthodes similaires à celles utilisées lors d'études antérieures"* [(André 2022)](https://stm.cairn.info/revue-environnement-risques-et-sante-2019-4-page-337?lang=fr)
- Réutilisabilité = capacité à utiliser les données dans différents contextes. Réplicabilité = capacité à reproduire les résultats ou les conditions initiales d'une étude ou d'un processus.[^1]
[^1]: P. Chauvet, D. Ibarra, M. Alunno-Bruscia (2024). Formation DOCTIS-COPE, atelier #6 : Gérer ses données de recherches, pourquoi FAIR ? Plouzané (France), 25 avril 2024
- **Q2 : Quelle place pour l'analyse exploratoire des données ?** L'important est la transparence, bien documenter ce qu'on a fait.
- **Q3 : Mise à disposition des jeux de données : but de vérification uniquement ou réutilisation dans d'autres travaux ?** Tout est possible :-) Vérifier tout de même selon licence des données. Les conditions d'utilisation des données doivent être spécifiées :
• licences
• droits d'auteur
• restrictions éventuelles


[(Muriel-Torrado & Pinto 2018)](https://biblios.pitt.edu/ojs/biblios/article/view/424)
- **Q4 : cas de données déjà existantes** Dans le cas de pré-enregistrement de données/études (comme par exemple avec [as predicted](https://aspredicted.org/))
- **Q5 : la place du quali ?**
- La transparence sur la méthode compte également
- Question sur la représentativité des phénomènes observés [^2]
[^2]: Calculer la marge d'erreur d'un sondage [(lien)](https://fr.surveymonkey.com/mp/margin-of-error-calculator/)
De manière plus large, on retombe sur des questions d'**éthique** de la recherche.
Eloge du Plan de gestion de données sur sa manière de cadrer la recherche
Pourquoi le pré-enregistrement n'est pas lié au PGD ?
:::warning
**Pré-enregistrement** = les hypothèses et ce que l'on va faire après (quelles analyses à faire selon les hypothèses, comment constituer l'échantillon)
*NB: Possibilité d'amender les hypothèses au regard de ce que nous apprennent les données. Exemple : invalidation des hypothèses d'origine et élaboration de nouvelles hypothèses.*
:::
:::info
**Boîte à outils**
- Nicolas Chevassus-au-Louis *Décroiscience* dont l'ouvrage englobe les questions de réplicabilité/reproductibilité, science ouverte, éthique, labo 1.5
- [Réseau français de la recherche reproductible](https://www.recherche-reproductible.fr/steering/)
- [Dépôt et pré-enregistrement des données - osf](https://www.datacc.org/warehouses/open-science-framework-osf/)
- [as predicted](https://aspredicted.org/)
- Calculer la marge d'erreur d'un sondage [(lien)](https://fr.surveymonkey.com/mp/margin-of-error-calculator/)
:::
Projets de recherche devraient être publics (ex. ANR) + dépôts de projets.
### Projet [MAD](https://sroux.gitpages.huma-num.fr/mad/)
Projet financé et labellisé par PROGEDO
BUT de ce GT : Réfléchir ensemble sur les pratiques et méthodes analyses de données entre les disciplines. Lever les barrières entre disciplines.
RDV régulier (1er = les outliers)
Prochain rdv = **27 novembre** "Apports et limites de la transcription automatisée"
### Reproductibilité en SHS - Expériences autour des grandes enquêtes LifeObs
_Claire Kersuzan - IR LifeObs_
Travaux menés dans le cadre d'un PIA coordonnée par l'INED : Projet LifeObs
Observatoire français des parcours de vie : enquêtes logitudinales et innovantes sur les comportements
4 départements : collecte, innovaton, diffusion, formation.
OBJECTIFS :
- Accroître l'utilisation des données + former les utilisateurs au traitement et interprétation de ces données.
- amener de nouveaux utilisateurs vers ces données
Création de kits pédagogiques (Quarto) à partir des données, pour apprendre à utiliser ces données.
**1er Kit :** Initiation traitement de données + formation à R. Données ERFI 1
-> Programme SAS ancien pas très bien documenté, mais chercheur volontaire pour accompagner et renseigner les manques.
-> Construire un fichier pédagogique anonymisé (FPA différent du Fichier Production Recherche FPR*) avec le SES de l'INED (Julie Baron & Julie Lenoir)
(*le FPR est un fichier pseudonymisé et non pas anonymisé)
#### Anonymisation = méthode *ad-hoc* :
- Regroupement de modalités rares (valeurs extrêmes, regroupement de catgéories)
- Brouillage (ex : faire changer les âges de manière aléatoire. Les tranches d'âge sont cohérentes mais les âges sont brouillés). Ojectifs de réplication des résultats obtenus précédemment et publiés dans un article scientifique.
#### Comparaison FPA/FPR
- Tendances globales bien conservées
- Impact des pondérations ? Différences mineures dans la régression logistique
- Est-ce qu'une accumulation (multiplication des valeurs anonymisées) n'augmente pas l'éloignement des résultats ?
#### Limites des méthodes *ad-hoc*
#### Confidentialité différentielle locale (LDP)
Les valeurs proches sont rendues indiscernables.
-> Simulation d'attaques pour voir si l'anonymisation est efficace.
-> FPR : Vulnérabilité 73% de ré-identification
-> FPA : 50% de ré-identification
Après méthode LDP : 35% de ré-identification
=> Confidentialité différentielle locale permet d'anonymiser mais pas de réplication possible
-> Donc sélection de la méthode ad-hoc, risque de ré-identification plus fort : 50%, mais permet de répliquer les résultats.
Objectif de ces données mises à disposition et qui sont anonymisées : objectif d'utilisation pédagogiques.
Processus d'un an et demi pour ce 1er kit pédagogique.
:::info
**Boîte à outils**
[Initiation à R à partir de ERFI1 : Kit d’initiation à l’exploitation de données d’enquête à partir du langage R - ERFI1](https://lifeobs.site.ined.fr/fr/outils-formation/kits-autoformation/initiation-r-erfi1/)
:::
[Tuto Mate-SHS à venir le 12 mars sur la pseudonymisation et anonymisation des données quantitatives avec sdcMicro](https://mate-shs.cnrs.fr/actions/tutomate/tuto79_anonymisation_baron_lenoir/)
#### Q&A
- **Q1 : Simulation du jeu de données possibles ?**
- Q2 : Brouillage conserve tout de même le profil de variance ?
- Q3 : quid de documenter la façon dont le brouillage et l'anonymisation a été faite ?? Dans un un objectif de reproductibilité ? Mais risque de retrouver les gens et de casser l'anonymisation.
- Principes d'anonymisation : 1 article de référence
## Jeudi 02/10/2025
:::info
**Boîte à outils**
- Outil de cartographie (mais pas que de la carto !) interactive CartABl : https://cartabl.cnrs.fr/ - Laurent Pourinet (LETG Nantes)
:::
### Retour d'expérience d'analyses qualitatives
_Laure Gayraud (ingénieure au Cereq)_
#### ARO (analyse des relations par opposition)
- Méthode strictement empirique.
- Efficacité fortement dépendant de des capacités perceptives de l'analyste.
- Méthode développé dans les années 60
- Mettre à jour un système de références / de valeurs. i.e. voir ce qui se cache derrière un discours
:::info
**Références**
- Raymond H (1968)
- Blanchet A et Gotman A (1992) : L'enquête et ses méthodes : l'entretien. Sociologie 128. Armand Colin
:::
Fonctionne sur des logiques d'opposition, ce qui finalement ressemble assez bien au fonctionnement classique des personnes.
On va chercher à reperer dans les entretiens des oppositions.
On identifie donc des oppositions puis on va chercher des argumentaires liés à ces oppositions. On parle de signifiants médiateur
A partir des signifiants identifié dans le discours pour chaque opposition on va donner des éléments d'analyse qui sont des "supra-catégorie"
exemple tiré de Blanchet et Gotman:
| Réinvestir | Racheter une vieille maison de campagne | Faire fructifier / question de durabilité |
| -------- | -------- | -------- |
| Faire autre chose | Acheter voiture / meubles | Dilapider |
Puis on va opérer une réduction de l'énoncé et venir caractériser ses "supra-catégories"
Réduction de l'énoncé :
_D'un côté des **signifiés** et de l'autre des **signifiants**_
| Réinvestir | Racheter une vieille maison de campagne | Dure |
| -------- | -------- | -------- |
| Faire autre chose | Acheter voiture / meubles | Dure pas |
Exemple à partir du DFA :
| | Signifiant médiateur | signifié |
| -------- | -------- | -------- |
| ARS | Logique de désinstitutionnalisation | Central |
| Conseil Régional|Ne change rien à la charge du salaire|Périphérique |
CAP EMPLOI | Ce qui prime c'est leur offre de service et très peu de dossier DFA | Périphérique
MDPH | Insignifiant au regard des milliers de dossiers traités par an |Périphérique
Référents ESRP | ??? | central ?
Conclusion d'opposition possibles sur le DFA :
- Central / périphérique
- Inclusion / enfermement
- Individualisation / standardisation
- Rentable / non-rentable
Questionnement :
1- Quid de l'IA aujourd'hui ?
2 - Système d'opposition transposable ?
Sur les risques des LLM pour l'annotation : [(Baumann et al., 2025)](https://arxiv.org/abs/2509.08825)
Et pour un aperçu des usages plus raisonnés/raisonnables en recherche : https://www.css.cnrs.fr/llm-power-to-the-people/
Echanges sur la proximité entre la méthode ARO et les méthodes quantitatives. La logique est similaire.
### Mot de Frédéric Le Blay - Directeur de la MSH Ange Guépin
Maison de la recherche régonale : Nantes, Angers, le Mans
[Lien](https://msh-ange-guepin.fr/) site MSH.
Très beau bâtiment.
### Simulation des fréquentations de plaisance dans le Bassin d'Arcachon : complémentarité des données et des méthodes quali-quanti
_Kimberley Cloirec - projet MACUMBA_
Kim est doctorante à l'Université de Bretagne Occidentale, codirection LETG/LEMAR.
Simulation des fréquentations de plaisance dasn le bassin d'Arcachon. Complémentarité des données et méthode quanti-quali.
Programme de suivi de la fréquention du parc régional du Bassin et notamment de la plaisance.
Approche intégrée et reproductible.
3 obj : Comprendre / extrapoler / prédire
- Comprendre la fréquentation et ses déterminant
- Extrapoler les données de fréquention à partir de données parcellaires (spatiales et temporelles).
- A terme prédire la fréquentation
Données collectées par AIS : pas obligatoire pour les embarcations maritimes de plaisance (obligatoire que selon un certain tonnage pour transport de passagers et navrires de peche). Donc données issues de l'AIS parcellaires.
Pour corriger ces manques : données aériennes. Mais pas même échelle de temps, ni spatiale.
Correction échelles temporelles grâce à une transformation par régression linéaire (car écart entre données AIS et Présence observée grâce aux données aériennes).
Correction spatiale, grâce au maillage du territoire. Corrigés également par régression linéaire.
1ère analyse : analyse séries temporelles classiques mais variance résiduelle importante.
-> Le temps (jour d'avant) peut influencer les résultats
(Régressions GLM - pas modèles mixtes ?)
Arbres de décisions permettent de mieux saisir les relations (variables quanti & quali)
> **Pattern global**
L'empreinte spatiale est correcte (destinations connues via les chenaux, île aux Oiseaux, Banc d'arguin, etc), mais nombre de bâteaux sur la carte n'est pas correct (AIS parcellaire). Pour corriger, on agrège les journées pour observer un pattern global. On corrige en tenant compte de la variabilité de la hauteur d'eau (facteur qui rend une maille accessible ou non). Puis standardisation pour avoir une empreinte spatiale relative (chaque maille reçoit une probabilité de présence i.e. entre 0 et 1)
> **Spatialisation des indicateurs prédits**
> Utiliser le pattern global pour pondérer notre stock d'indicateurs prédit à l'aide du modèle de machine learning et corrigé par régressions linéaires.
Cette approche a permis : compréhension approfondie des dynamiques de fréquentation + production d'indicateurs sur la variabilité spatio-temporelles.
ATTENTION : comportements marginaux ne sont pas repérés avec AIS (ex. clubs de voile, NUC (Navires à usage commercial), etc.) => démarche quali pour caractériser les destinations, fréquences, etc.
Protocole quali pour compéléter le modèle fourni.
Dépendance données AIS : Selon où sont les antennes, la réception des signaux AIS ne sera pas la même. Dans le fond du bassin par exemple, une moins bonne couverture du réseau. Une antenne AIS serait nécessaire pour mieux capturer le signal.
-> Imputation des données, qualité des données variables selon les producteurs (ex: Marine Traffic ou CEREMA) et donc problèmes de reproductibilité..
Evolution des pratiques questionne sur la pérennité du modèle (kit-surf).
Le modèle devra aussi être adapté au changement climatique (certains endroits ne seront plus navigables).
Photos prises de loin, sinon problèmes RGPD + aide IA pour identification et reconnaissance même embarcation.
Approche quali comme ouverture.
Cette démarche a été pensée dans un objectif de reproductibilité :
- Travail sous R
- Base de données sur drive huma-Num
- Tout est sur Gitlab
- Création d'une application à partir du modèle conçu
### Arbres de décisions pour dépasser la dichotomie quali / quanti
_Grégoire Le Campion_
[Présentation](https://lecampiong.github.io/JA_somate_2025_arbredecision/)
[Dépôt git pour application R](https://github.com/LeCampionG/JA_somate_2025_arbredecision)
[application shiny baobard](https://analytics.huma-num.fr/Gregoire.LeCampion/Arbre_de_decision/)
#### Algorithme présenté ici : CART (Classification And Regression Tree)
Livre de référence : [(Breiman et al., 1984)](https://doi.org/10.1201/9781315139470)
Mais autres possibles :
- CHAID : Basé sur le Chi², adapté pour data quali avec variables catégorielle
- CTREE
Tous ont une structure en commun, Puis embranchement.
#### De nombreux avantages : (nombreux)
- Peut sensible à la multicolinéarité : l'arbre va choisir la variable la plus efficace même si initialement très corrélées.
- Très peu sensibles aux outliers
- Peu gourmand en ressources (contrairement au Deep learning)
- Méthode non paramétrique (pas d'hypothèse sur la distribution des données)
- Traite variable quali, continues, ordinales de manière simultanée
#### Limites (9, plus des choses à savoir) :
- **Effets de médiation non utilisables** avec arbres de décision. i.e comment une variable va influencer la variable à prédire mais en passant par une autre variable (on parle d'intéraction entre covariable ?)
- Pas adapté pour de l'extrapolation. Seulement compétent sur les données qu'il connaît
- Ce n'est pas de l'inférence statistique. Pas de coefficient, pas de p-value. Pas de quantification de l'effet d'un prédicteur (en revanche pour CHID oui)
- Sensible aux petits échantillons
- Risque de sur-ajustement = piège majeur
#### Comment pousse un arbre ?
Racine = ensemble du jeu de données
Avec l'algo CART : Question binaire qui permet de scinder le jeu de données en deux groupes les plus homogènes en leur sein et les plus différents entre eux. (Questionne les différents seuils et modalités)
Un principe récursif. La question peut varier en fonction des sous-groupes d'individus.
:::info
Pub journée MAD 6 janvier sur les arbres de décision et les forêts aléatoires :
https://sroux.gitpages.huma-num.fr/mad/even.html
:::
:::info
**Boîte à outils** :
- Vidéo de vulgarisation sur le Random Forest [(lien)]( https://www.youtube.com/watch?v=J4Wdy0Wc_xQ)
- et sur decision trees : https://www.youtube.com/watch?v=_L39rN6gz7Y
- Dans les supports formation : https://scikit-learn.org/stable/auto_examples/tree/index.html
(cours de sklearn/inria, version interactive dispo sur fun mooc.)
:::
### Journée du 03 octobre 2025
Projets so-maté : Dictionnary : création d'une plateforme
MAD : Journée sémiologie 10 mars 2025
JA Mate-shs à Limoges les 28 et 29 mai 2026 - thème : le temps en SHS:
- Recueillir le temps avec les biais que ça implique (faux souvenirs, etc.)
- Time matching et optimal matching
=> 1 session poster
- Exemple archéo cold case
- session posters : discussions
- Vie du réseau et des réseaux
Echanges autour des ateliers de la données dans les Universités ; So-maté se positionne pour ne pas donner d'ETP pour atelier de la donnée, car risque surcharge travail + mutualisation et baisse qualité travail...