# Réunion préparation RESIL 2023-02-15
## Liste des sources
- FIP
- Pasrau (?) -> y a le NIR
- DSN -> y a le NIR
- EAR (mais c'est une enquête pas une source admin)
- CAF
A terme RNIPP mais pas pour le test
Idée de construire un pseudo RESIL à partir de ces sources après un passage CSNS.
Données nominatives de bonne qualité. Adresses un peu le bordel.
EAR c'est le bordel à cause de la saisie optique.
Pas de contrôle du match 1:1
Sujet multiadresse : est-ce le même avec deux adresses (faux doublon) ou deux individus différents ?
CSNS: quasi pas de reliquat car donne plus ou moins toujours un match. Mais un indicateur de qualité pour refuser éventuellement.
Problème: CSNS ne considère que les traits d'identité mais pas les adresses. Comment tenir compte de l'information supplémentaire de l'adresse ?
Vrai positif du CSNS: supérieur à 95%
Comment choisir qui on refuse ?
CSNS: processus d'anonymisation en renvoyant un NIR haché
RNIPP: si on l'a pas on n'a pas l'univers des individus
Deux sujets:
- Maximiser le taux d'appariement => pour source à identifier oui, mais pour la constitution du rep, c'est u arbitrage appariement/ajout d'un nouvel individu
- Améliorer la qualité des appariements
Plan d'action pour le premier étage de la fusée, sous l'hypothèse que nous ne disposons pas du RNIPP :
Construction d'un pseudo Résil, univers de référence (par exemple sur le millésime 2019)
1. **Obtenir le CSNS de toutes les sources de Résil.**
2. **Constitution d'un "noyau" sûr :** On sélectionne au sein des sources les enregistrements dont on pense que le CSNS est très fiable (exemple: qualité > 98%, ou CSNS reconstitué à partir du NIR). On empile tous ces enregistrements pour construire un premier pseudo-univers de référence (V1). On suppose pour la suite des travaux que l'identification de ces individus au CSNS est exacte. Les autres enregistrements forment un reliquat R1.
3. **Evaluation des CSNS moins sûrs :** On prend tous les enregistrements non retenus dans le pseudo univers de référence V1, et on apparie ces enregistrements avec la V1 du pseudo univers de référence en utilisant le CSNS. Si on pense que ces observations ont été correctement identifiées au CSNS (en comparant les états-civils et les adresses), on les ajoute au pseudo-univers de référence (on en obtient une V2, et un reliquat R2). Note: la V2 contient plus d'enregistrements que la V1, mais pas plus d'individus (car il n'y a que les CSNS de la V1). Note bis : il s'agit ici d'apparier sur la clé, puis d'évaluer la qualité de cet appariement via les traits d'identité et les autres informations. On réduit ainsi le problème pour la suite.
4. **Ré appariement du reliquat R2 sur la V2 :** On prend tous les enregistrements non retenus dans le pseudo univers de référence V2, et on tente des appariements sur traits d'identité, adresses et cohabitants entre ces enregistrements et le pseudo-univers de référence V2. Si on pense que ces enregistrements ont été correctement appariés avec la V2, on les ajoute au pseudo-univers de référence (on en obtient une V3). Note: la V3 contient plus de lignes que la V1, mais pas plus d'individus (car il n'y a toujours que les CSNS de la V1). Il reste un reliquat R3.
5. **Ajout des individus du reliquat, après appariement du reliquat sur lui-même** On prend tous les enregistrements non retenus dans le pseudo univers de référence V3. Il s'agit des enregistrements qu'on n'arrive pas à apparier avec une observation ayant un CSNS fiable. On essaie d'identifier les individus distincts au sein de ces enregistrements (exemple: le même individu apparaît dans le FIP et dans la DSN avec des état-civils proches *attention à dédoublonner en tenant compte de la source...*). On crée un pseudo-CSNS pour ces individus *(Rmq : pas forcément on peut avoir le même CSNS absent de la V", et non fiable partout....)*. On ajoute alors ces enregistrements (avec leur pseudo-CSNS) au pseudo-univers de référence (on en obtient une V4). Note: la V4 du pseudo-univers de référence contient TOUTES les observations de toutes les sources, et contient cette fois plus d'individus que la V1.
6. On obtient un univers de référence final en dédoublonnant la V4 sur l'identifiant des individus (CSNS pour la plupart des individus, pseudo-CSNS pour les cas difficiles traités à l'étape 5). On obtient une table avec une ligne par individu distinct. Le lien avec l'ensemble des sources de Résil (V4) est immédiat, grâce à l'identifiant individuel.
Deuxième étage de la fusée: ajout d'une nouvelle source admin (millésime plus récent par exemple) :
comment met-on à jour Résil ?
=> on peut repartir du process ci dessus mais :
- évaluer l'intérêt de faire 2 (app sur CSNS sûr) et 3 (app sur CSNS moins sûr plus évaluation) versus évaluation pour tout le monde ?
- c'est bien le 4 qui est le sujet principal du POC => quel critère se donne Résil pour considérer qu'un individu est suffisamment proche pour considérer que c'est le même, ou pas suffisamment et on l'ajoute ? ici l'évaluation de la qualité d'une paire a un impact direct sur le répertoire (sujet évaluation...)
- le sujet dédoublonnement n'est pas le même puisqu'on considère ici une seule source (et pas plusieurs empilées).
Troisième étage de la fusée : identification d'une source qui n'alimente pas Résil (l'EAR par exemple) : comment fait on l'identification ?
=> on peut repartir du process ci dessus mais :
- il n'y a pas de sujet dédoublonnement (ça relève du client de le faire ou non)
- on suppose alors que tout le monde "doit" être dans le répertoire ?? quel critère pour ne pas renvoyer l'écho ?
Sujet dans un 2e temps: avoir un pseudo RESIL de 2019 et tester s'il marche bien en 2022
Comme on aura un pseudo univers de référence de qualité douteuse, l'idée c'est plutôt de se concentrer sur le cas d'usage: j'ai une nouvelle soruce qui arrive:
- source admin: comment met-on à jour RESIL ?
- source enquête: comment fait-on appariement ?
Pour la réunion info
Question de l'architecture et de la structure des données à poser aux informaticiens. Comment est structuré et mis à dosposition par RESIL ?
Evaluation de la qualité de la constitution du pseudo résil, ou de l'ajout d'une nouvelle source admin :
Elle semble assez complexe, notamment pour l'étape 5...
- L'étape 3 peut être considérée comme une évaluation plus précise de l'identification RNIPP que l'indicateur qualité (assez fruste à cause de l'impossibilité de dévoiler des infos du RNIPP).
- L'étape 4 est une étape d'appariement sur état civil + adresse. Il semble pertinent de mobiliser de l'annotation de paires sur cette étape. Une évaluation systèmatique comme avec la DSN dans le processus CSNS semble plus difficile à mettre en oeuvre (à réfléchir si on peut fonctionner de même en profitant de la présence simultanée de l'état civil et du NIR ? est-ce qu'il serait intéressant de mobiliser les résultats des POC résil précédents ? - plutôt pour le troisième étage puisque c'était FIP EAR.... le benchmark d'outils donne aussi l'occasion de comparer des résultats d'appariements)
- de même l'étape 5 de "dédoublonnement" pourrait être classiquement évaluée sur la base d'annotations
- IL semble beaucoup plus complexe d'évaluer les erreurs restantes dans les individus ajoutés en fin de processus, mais qui sont en fait des faux négatifs d'une des étapes précédentes. Ce dernier point sera moins crucial pour le service d'enrichissement, mais on aura toutefois une difficulté à évaluer les faux négatifs. Une évaluation type CSNS avec l'identification des états-civils de la DSN comparée à l'identification avec NIR peut apporter qqs éléments