# **AVAL Codification nouvelle filière** Réf -> aval TCM nouvelle filière https://hackmd.io/V0OoZqqNRTewL4sik9jwRA?edit --- ## **Réunion #3 - 20/01/2023** ### Personnes présentes : * DRTI : M-H. Kérouanton, J. Guay, L. Tholozan, H. Chaput * SNDIL : A. Lambois, L. Henninger, T. Bourlard, M. Moineau * Pôle PCS : F. Maire * Division emploi : A. Poty, R. Partouche, E. Pouliquen * Produit "Traiter" : G. Wemelbèke * RP : M. Exavier * Pôle Diplôme : S. Audric ### Processus de codification diplôme et niveau de formation 3 variables codées : * niveau de formation en cours, * plus haut diplôme obtenu (nomenclature Insee, incluant diplôme et spé), * et spécialité de ce diplôme (nomenclature européenne) **Codification du diplôme et de la spécialité** : le code est sur 8 positions: les 4 premères pour diplôme, les 4 dernières pour la spécialité (en NSF, nomenclature française des spécialités) Dans le questionnaire de l'EEC, on propose des listes de diplômes et de spécialité : la répiondant (enquêteur ou enquêté) peut choisir dans une liste ou saisir des libellés en clair. * Si la spécialité se déduit automatiquement du diplôme, alors la question sur la spécialité n'est pas posée ; * Sinon, on propose une liste de spécialités, avec possibilité de saisie libre si aucun libellé ne correspond. * Si la spécialité est choisie dans la liste, la spécialité pourra être automatiquement codée en nomenclature européenne, en aval de l'enquête. Soumission des libellés Diplôme+spécialité à Sicore, 2 cas * Codage complet, diplôme et spécialité * Non codage => relance de Sicore sur le diplôme seulement * codage complet, diplôme +spécialité, quand la spécialité se déduit du diplôme (cf. infirmier par exemple) * codage partiel => échec A noter : en cas d'échec de codage, si le diplôme est choisi hors liste, il faut collecter le niveau du diplôme, pour permettre la reprise. Cette variable est en effet essentielle pour aider à la codification. En aval de la collecte , on relance l'ensemble du traitement de codification, m^me si on a sauvegardé les résultats de la codif embarquée. On soumet à Sicore Batch la concaténation "libellé du diplôme" et "libellé de la spé". Idée pour se sortir de Sicore embarqué : ne poser la question du niveau de diplôme qu'aux personnes qui ont saisi un diplôme en clair et pas dans la liste. les échecs de codage sont envoyés e reprise. En résumé, Sicore embarqué sert à filtrer les cas où le diplôme (saisi en clair) ne peut pas être codé pour poser la question sur le niveau du diplôme et sur le caractère étranger du diplôme. Il s'avère que, contrairement au niveau du diplôme celle-ci est très peu mobilisée pour la reprise. Sicore embarqué sert aussi à filtrer les personnes n'ayant pas de diplôme ou un niveau brevet des collèges ou CEP pour d'autres questions. **Codification du niveau de formation en cours** - choix du lieu d'étude : collège, lycée, autre - classe et diplôme préparé si collège/lycée - autre : préparation de diplôme/titre Il n’y a pas de codification via Sicore embarqué en collecte. Trois possibilités pour coder le niveau de formation formelle en cours (diplôme/titre préparé): - une saisie à partir de grilles, - une saisie sur liste avec autocomplétion, - une saisie libre. Deux variables synthétiques sont créées pour Sicore à partir des variables collectées: - niveau d’étude et diplôme préparé (par exemple « 1a Licence »), - nature du diplôme (enseignement primaire ou secondaire/enseignement supérieur) qui sera utilisée en variable annexe. La variable synthétique sur le niveau d’études et le diplôme préparé est codifiée via Sicore, en utilisant deux variables annexes : la nature du diplôme et l’année en cours (les diplômes ont une valeur différente selon l’année). ⇒ si échec, envoi en reprise **Expertise et reprise :** Travail du pôle : étude des saisies en clair pour vérifier qu'il n'y a pas un trou dans la raquette dans la liste des diplômes. Cette dernière peut évoluer si on constate un "trou". Dans les libellés en clair, on a souvent des choses qui ne sont pas dans formations "formelles" permis de conduire, ... => est-ce qu'on a des consignes ? Reprise : Il y a un poste de reprise (poste générique, décliné d'une part pour NAF/PCS et d'autre part pour diplôme/niveau) Le travail d'expertise en reprise sur les variables de diplôme et de formation consiste à déterminer s'il faut plutôt privilégier l'une ou l'autre des variables (diplôme vs spécialité ou diplôme vs année dans le cursus). L'âge est une variable de contexte importante pour la reprise. Le poste de reprise des diplômes et niveaux de formation ne propose pas de choix sur liste avec autocomplétion, mais des listes triées par ordre alphabétique. L'interface permet aussi de consulter le FAB pour déterminer le code. ### Evolutions envisagées du questionnement Dans le TCM, on a une option courte sur les varaibles de formation. Sinon, le questionnement est le même que celui de l'EEC. Seule SRCV jusqu'ici a choisi l'option longue, pour les enquête embarquant actuellement le TCM. **Pour abandonner le recours à Sicore-Diplômes embarqué la question du niveau du diplôme sera posée systématiquement aux enquêtés ayant saisi leur libellé de diplôme en clair. La grille du niveau de diplôme devra intégrer le niveau BEP pour permettre d'appliquer les filtres.** A l'EEC Le taux de recours aux listes de diplômes et spécialités est élevé (98% par enquêteur, 88% sur internet) , mais les sélections peuvent aboutir à des incohérences entre diplômes et spécialités, et aboutir à un échec de codage. Idem pour diplôme préparé/année dans le cursus. **Pour faire évoluer le questionnaire de façon à améliorer la codification, la solution la plus efficace serait de filtrer la liste des spécialités proposées dans la liste en fonction du diplôme choisi. De la même façon, le taux de codification du niveau de formation suivie serait meilleur si la liste proposée pour le choix de l’année dans le cursus était filtrée en fonction du diplôme préparé. La DRTI instruira la faisabilité technique de cette évolution dans le questionnaire.** ### Codification de l'activité employeur sur deux positions (demande IESS) **Protocole actuel : ** - collecte des coordonnées employeur => NAF5 (EAR + EEC) - Sicore APE => NAF2, (TCM + EEC pour activités secondaire et antérieure) Limites: - protocole simple, mais mal compris, yc pour les enquêteurs - environnement de codif vieux, construit en 2008, de qualité douteuse - obsolescence Sicore Perspectives - collecte par choix sur la liste des 88 divisions - collecte sur liste "travaillée" - codif avec modèle probabiliste/ML - appariement SIRUS, sur les coordonnées employeurs (inadapté à l'activité des parents ou l'activité antérieure) - appariement DSN La présentation du pôle sera diffusée post-réunion ### Evolutions du questionnement sur l'activité employeur - A moyen terme, le DERA privilégie les appariements avec la DSN pour collecter la variable activité de l’employeur. - Pour répondre à court terme à la nécessité d’abandonner Sicore embarqué pour la codification de l’activité employeur sur 2 positions, la DRTI valide l’option de collecte de cette variable par saisie sur liste avec auto-complétion. * Plusieurs sources peuvent être utilisées pour élaborer cette liste : les données du recensement, les libellés proposés dans la NAF (comprend, comprend aussi), les libellés associés à des produits (source EAP). La DRTI sollicitera la division Nomenclatures économiques pour proposer un expert de la codification en NAF en appui à la constitution de la liste. - Le test multimode du TCM qui va être organisé au T4 2023 permettrait de tester la liste sur l’ensemble des supports (internet, téléphone, face-à-face) : faire un rétro-planning pour vérifier la faisabilité. * définir le questionnement (variables annexes ?) ==> resp : Division emploi * établir une première version de la liste ==> resp: pôle PCS * faire évoluer le TCM pour prendre en compte le nouveau questionnement ==> resp : DRTI. * -organiser le test ==> resp: DRTI ## **Réunion #2 - 14/12/2022** ### Personnes présentes : * DRTI : M-H. Kérouanton, J. Guay, L. Tholozan, H. Chaput * SNDIL : L. Henninger, T. Bourlard, M. Moineau * Pôle PCS : F. Maire * Division emploi : A. Poty, R. Partouche, E. Pouliquen * Produit "Traiter" : G. Wemelbeke * RP : M. Exavier, E. Maeght ### Eléments de contexte * codification assurée actuellement par Sicore, application instable, difficilement maintenable => sortie programmée à moyen terme, instruction en cours * l'aval en nouvelle filière est porté par le produit Traiter, dont la division ESPRI est responsable * la codification est le point de complexité repéré à ce stade dans la réflexion sur l'aval en nouvelle filière * les contraintes / pré-requis de la nouvelle filière : pas de codification embarquée, mutualisation, fonctionnement en "flux" de l'aval * premier jalon : test SRCV avril 2023 ### L'existant Analyse basée sur le fonctionnement de l'EEC 1. #### Secteur d'activité **NB** : on cherche à coder le secteur d'activité de l'établissement lieu de travail (pas la même chose que celui l'employeur, cf. par exemple pour les intérimaires). [Schémas](https://) /* Insérer Schémas 2 & 3 & 5*/ * **Collecte** * activité de l'employeur principal : recueil identité et coordonnées de l'établissement lieu de travail [+ libellé de l'activité en clair : pour aider lors de la reprise le cas échéant] * activités des employeurs pour les professions secondaire et antérieure : recueil du libellé de l'activité en clair * **Codification activité principale** * Etape 1 : Aide familial oui/non. Si oui, **codification en aval après l'étape de reprise** ; si non, étape 2 * Etape 2 : Cas particuliers oui/non. Si oui, étape 5 ; si non, étape 3 * Etape 3 : Siam SIRENE, établissement de travail identifié oui/non. Si oui, étape 4 ; si non, **reprise** * Etape 4 : activité spécifique oui/non. Si oui, **reprise** ; si non, **CODE OK et FIN** * Etape 5 : codage amont (cas particuliers identifiés comme pouvant être directement codés par un batch spécifique EEC) oui/non. Si oui, étape 6 ; si non, **reprise** * Etape 6 : batch codage amont spécifique EEC, **CODE OK et FIN** ``` Questions : * que signifie "codage amont" ? expliqué ci-dessous * pas d'erreur de codage en batch EEC ? non, il s'agit juste d'associer un code à un libellé identifié comme directement codable * comment détermine-t-on si on passe dans les étapes 1 et 2, à partir du libellé ? bonne question ``` * **Codification activités secondaire et antérieure** * Etape 1 : Cas particuliers oui/non. Si oui, étape 3 ; si non, étape 2 * Etape 2 : Sicore APE embarqué (collecte enquêteur) ou API Sicore (collecte internet). Si code unique ou fréquence associée au premier écho élevée, codage auto, sinon choix enquêteur ou enquêté dans la liste d'échos. Si aucun écho retenu, choix dans la liste des 88 divisions pour la collecte par enquêteur, **CODE OK et FIN** ; saisie en clair pour la collecte internet et **reprise** * Etape 3 : codage amont oui/non. Si oui, étape 4 ; si non, **reprise** * Etape 4 : batch codage EEC, **CODE OK et FIN** * **Reprise activité de l'employeur principal (NAF5)** Deux actions possibles pour le gestionnaire : * modification des coordonnées de l'établissement lieu de travail), relance de Siam SIRENE et choix dans la liste d'échos * codage manuel direct, en utilisant éventuellemlent le libellé d'activité saisi lors de la collecte oula profession comme informations annexes. ``` Remarques : * Toutes les "exceptions" (aide familial, cas particuliers, activité spécifique) sont des correctifs mis en place pour tenir compte de l'expérience de reprise et pour améliorer la qualité du codage * Salariés de particuliers : confrontation avec une liste => quelle gestion de cette liste ? * Activités employeur pour les professions secondaire et antérieure : pas de reprise si collecte intermédiée: l'enquêteur fait un choix dans une liste (d'échos Sicore ou de 88 divisons NAF, quoi qu'il arrive. Mais pas de consignes spécifiques en formation, ... => quelle qualité ? ``` 2. #### Profession /* Insérer Schémas 4 & 6*/ * **Collecte** * Recueil sur liste du libellé de la profession + réponse aux questions permettant de renseigner les variables annexes. * Si libellé pas dans la liste, recueil en clair du libellé * Si libellé saisi en clair correspond à un libellé de la liste des libellés flous, recueil de précisions en clair * **Codification** * Etape 1 : codage amont, oui/non. Si oui (refus ou NSP au libellé), étape 3 ; si non, étape 2. * Etape 2 : batch SicorePCS2020 * si libellé de la liste : application de la matrice de passage => si univocité et variables annexes cohérentes (indicatrice de codage), **CODE OK et FIN** ; si non, **reprise** * si libellé en clair : normalisation et recherche dans la liste. Si présence dans la liste, traitement libellé liste ; si non **reprise** * Etape 3 : Batch codage EEC => **CODE OK et FIN** ``` Questions : * que signifie "codage amont" ? --> Codage au moment de la collecte, de la passation du questionnarie * que signifie "batch codage EEC" ? * pas d'erreur de codage en batch EEC ? * Sicore ISCO2020 passe dans tous les cas où on a un code PCS ? oui sauf pour la profession secondaire ``` * **Reprise** Deux actions possibles pour le gestionnaire * Modification du libellé ou des variables annexes, relance de SicorePCS2020 * Codage manuel direct Si le libellé de profession est reconnu et codé par Sicore, le codage Isco se fait en séquence sans intervention manuelle. Si la PCS n'a pas pu être codée automatiquement, c'est que le libellé n'est pas reconnu et le codage Isco doit alors être effectué manuellement. ### Questions / échanges * Sicore fait de la reconnaissance de libellés pour ceux saisis en clair : normalisation, suppression des mots vides de sens, ... * Pas de reprise en ISCO: si le libellé PCS est reconnu, le codage en Isco est automatique. * La matrice de codification de la PCS n'a pas besoin de Sicore, elle peut être programmée dans n'importe quel langage * La matrice de codification est stable et modifiée annuellement à la marge, pour améliorer la qualité du codage. Expertise annuelle des libellés saisis en clair, qui ne sont pas dans la liste et qui sont en grand nombre. Il existe un outil de gestion de la matrice développé en R shiny, qui permet d'ajouter, modifier et supprimer des lignes. * Les gestionnaires ont accès au même outil d'autocomplétion que les enquêteurs et les répondants. Leur première consigne : modifier le libellé pour en trouver un dans la liste. * Attention : la PCS2020 est associée à des agrégats (métiers du numérique, métiers verts, ...). Ces agrégats ne sont calculés que sur la base du libellé : si le gestionnaire code, sans modifier le libellé, l'observation n'est pas prise en compte pour le calcul du l'agrégat. ---> Cela va dans le sens de traiter la codification de la PCS (du questionnaire à la production des variables calculées) comme un "questionnaire" autonome importé dans les enquêtes. * La question de l'intégration à l'aval de la codification de la PCS2020 à partir de modèles d'apprentissage supervisé fait partie du champ d'instruction du GT ### Pour la prochaine séance * Poursuivre la schématisation de l'existant, sur l'aspect diplôme / niveau de formation => **Resp : DRTI** * Questionnement : * instruction des modalités de modifications du questionnement pour sortir de Sicore embarqué => **Resp : Pôle (NAF) et DRTI (Diplôme)** * codification des activités pour les professions antérieures et secondaires : qualité de la codification et du protocole actuel, usage des données => **Resp : DRTI** * Reprise : échanges entre les équipes RP et pôle PCS, dans le cadre de la ré-écriture du poste de reprise RECAP du RP, pour que (i) le nouveau poste de reprise RP réponde[](https://) aux principes portés par le pôle et que (ii) l'on puisse déterminer si une mutualisation des deux interfaces serait possible => **Resp : RP** * Aval : * schématisation des inputs/outputs de chaque phase (recueil/codification/reprise) => **Resp : DRTI** * modélisation du processus global de codification aval => **Resp : DRTI**