Résultats de l'expérimentation sur la pertinence de l’étude de l’Indice de Fragilité Numérique Parentalité

--- tags: mednum, livrable, ifn --- ![](https://hackmd.io/_uploads/SJR9pjCSo.png) # Résultats de l'expérimentation sur la pertinence de l’étude de l’Indice de Fragilité Numérique Parentalité ## 1) Contexte et objectif ### 1.1 Objectif La Trousse à Projets a mis en place l’expérimentation Territoires Numérique Éducatif. Cette expérimentation se déploie actuellement sur 12 départements et comprend 3 volets : * l'équipement * la formation * l'accompagnement des parents. Dans le cadre du volet Accompagnement des Parents, la Trousse à Projets a souhaité évaluer la pertinence d'étudier un Indice de Fragilité Numérique Parentalité. Cet indice se base sur l'Indice de Fragilité Numérique (IFN), développé par la MedNum. Il permettrait de piloter des stratégies liés aux compétences numériques des parents d'élèves. Pour valider cette pertinence, nous avons mené une expérimentation en croisant des données de l'Education Nationale avec l'IFN classique. En voici le cadre et les résulats. ### 1.2 Jeux de données Voici une description de chacun des jeu de données : | Jeu de données | Source | Description | Maille | | --- | --- | --- | --- | | Indice de Fragilité Numérique (IFN) | Mednum | "L’indice de fragilité numérique révèle les territoires où la population est le plus à risque d’exclusion." (source : La MedNum). </br> Il aggrège plusieurs facteurs tel que le *Taux de Couverture Très Haut Débit*. Un descriptif complet est disponible sur ce [lien](https://docs.google.com/document/d/1aXBez7QCPUVGdcuyT-Bs4FkU9mVpfsTS7NdKCf1bPeM/edit).| Commune | | PIX | Education Nationale | "Pix est le service public en ligne pour évaluer, développer et certifier ses compétences numériques tout au long de la vie" (source : pix.fr). </br> Le jeu de données présente les résultats de la campagne de certification pour l'année scolaire 2021-2022. Les données sont disponibles pour les classes de 5ème, 4ème et 3ème. | Etablissement | | Indice de Position Sociale (IPS) | Education Nationale |"L’indice de position sociale (IPS) permet d'appréhender le statut social des élèves à partir des professions et catégories sociales (PCS) de leurs parents. Pour chaque PCS, la valeur numérique de l’IPS correspond à un résumé quantitatif d’un ensemble d’attributs socio-économiques et culturels liés à la réussite scolaire." (source : data.education.gouv.fr) </br> |Commune | | Résultats brevet 2021| Education Nationale | "Ce jeu de données présente les résultats au diplôme national du brevet par établissement, pour les établissements de France métropolitaine et pour les départements et les régions d'Outre-Mer" (source : data.education.gouv.fr) </br> | Etablissement | | Boursiers | Education Nationale | Taux de boursiers pour les établissements publics | Commune | | DNMA | Education Nationale | Analyses d'utilisation des Espaces Numériques de Travail | Maille dynamique | ### 1.3 Périmètre et traitement préalable des données Notre premier travail a été d'aggreger tous ces jeux de données et d'en faire un jeu de données unique. Ce jeu de donnée est consultable [ici](https://gitlab.com/multi-coop/mednum/-/blob/main/data/data_commune.csv). Afin de pouvoir réaliser cette aggrégation, nous avons dû nous baser sur la maille la plus large entre tous nos jeux de données. Cette maille est **la commune**. Pour toutes les valeurs qui étaient disponibles à la maille établissement, nous avons moyenné les valeurs des établissements présents dans la commune. Par exemple, si une ville possède deux collèges, alors l'IPS de cette ville pour notre jeu de données sera la moyenne des IPS de ces deux collèges. Nous avons simplifié les données PIX en établissant une moyenne pondérée des résultats transmis en fonction des niveaux de certification. C'est ce que nous avons appelé le *score pix*. Le résultat un jeu de données dans lequel chaque ligne représente une commune. Cette commune fait forcément parti des 12 départements ENT et cette commune possède au moins un établissement scolaire. Voici par exemple à quoi ressemble la première entrée de ce jeu : | Champ | Valeur| | --- | --- | | Code Commune Insee | 02018 *(unique entrée concernant cette commune)* | | Taux d'admission au brevet *avec la mention bien ou très bien* | 44% | | IPS | 99.3 | | Pix Score | 2.15 | | Pix Taux de Couverture | 28% | | IFN | 1.21 | ## 2) Résultats et analyse ### 2.1 Méthodologie Nous avons cherché à évaluer les facteurs les plus influants sur la compétence numérique des élèves, en utilisant un modèle numérique. Le modèle utilisé est un modèle linéaire. Nous ne rentrerons pas ici dans les spécificités techniques de ce modèle, qui sont disponibles en [Annexe 2](#Annexe-2nbsp-D%C3%A9tails-de-la-mod%C3%A9lisation), mais nous présenteront les principales étapes, hypothèses et limites sous-jacentes. D'abord, nous avons choisi une variable cible (la variable "à expliquer") le score moyen à l'évaluation PIX, utilisé comme un proxy pour la compétence numérique de l'élève. C'est une hypothèse forte, qui suppose que l'évaluation de PIX est pertinente pour juger du niveau d'un élève. Cette hypothèse est plus longuement discutée dans le paragraphe ["interprétation"](#Interprétation). Ensuite nous avons procédé à une sélection de variables pertinentes pour l'analyse, à partir d'un échantillon de variables disponibles. La sélection s'est basée sur une procédure pour identifier les variables les plus explicatives de notre variable cible. Cette procédure a retenu comme variables explicatives : - L'Indice de Fragilité Numérique (IFN) - L'Indice de Position Sociale (IPS) - Le taux de mentions bien et très bien au brevet dans l'établissement - Le taux de réponses complètes et valides à la certification PIX ### 2.2 Résultats Nous présentons ici les résultats bruts du modèle, avec des clés de lecture. Notons tout d'abord que ces résultats sont à interpréter comme des liens de corrélation, et non de causalité. La partie suivante (["Interprétation"](#Interprétation)) donnera, moyennant des hypothèses fortes, une lecture plus causale de ces résultats. Voici les premières observations : * Les variables du modèle contribuent à un peu plus **d'un tiers** des variations de compétence numérique d'une commune à l'autre, contre **deux tiers** liées à des variables non observées. * Les influences de l'IPS, du taux de mention bien et très bien au brevet et du taux de réponse à la certification PIX sont statistiquement significatives, alors que celle de l'IFN ne l'est pas. La figure suivante présente l'influence relative des variables du modèle sur les compétences numériques des élèves (données chiffrées et détails en annexe). ![](https://hackmd.io/_uploads/SkbL6IYBo.png) * L'IPS a de loin la plus grande influence, avec une influence 3,5 fois supérieure à celle du taux de mention bien et très bien au brevet. L'influence est positive pour ces deux variables : plus l'IPS moyen ou le taux de mention B et TB est élevé, plus la compétence numérique moyenne des élèves est élevée (toutes choses égales par ailleurs). * À l'inverse, l'influence du taux de réponse à la certification PIX est négative, c'est-à-dire qu'un taux de réponse élevé est corrélé avec une certification PIX plus faible. L'influence est légère. Cela signifie toutefois que le fait de passer ou non la certification PIX semble lié aux compétences numériques de l'élève. ### 2.3 Exemple Voici un exemple pour donner une intuition de ces résultats : - Imaginons des communes ayant des valeurs moyennes par rapport aux autres communes : IPS moyen de 104, Taux de mention B et TB au brevet de 46%, taux de réponse à la certification PIX de 43%. - il est attendu qu'une grande majorité des communes (95%) de ce type ont un niveau de certification PIX moyen entre 1.89 et 2.56. - il est attendu qu'une commune avec un IPS très faible (82) et un taux de mention B et TB très faible (25%) aurait un niveau de certification PIX inférieur en moyenne de 0.24. ## 2.BIS Mise-à-jour après restitution Nous avons remplacé la variable IFN par certaines de ses composantes. Pour cela, nous avons choisi les variables suivantes sur la base de leur pertinence par rapport à notre objectif : - Distance à une bibliothèque, - Taux de non couverture du très haut débit, - Taux d'étrangers, - Taux de familles monoparentales. ![](https://hackmd.io/_uploads/S1YdiBZIj.png) Nous remarquons que parmi les nouvelles variables : - La distance à une bibliothèque et le taux de non-couverture du très haut débit ont des valeurs significatives. - Cependant, leur signe est contraire à celui attendu. Nous pensons que ces variables sont corrélées à d'autres facteurs liés à la typologie du territoire (urbain vs rural, densité). Il serait judicieux d'explorer cette piste plus en détail pour vérifier ce qu'il se cache derrière. ### 2.4 Interprétation Interpréter ces résultats de manière causale demande des hypothèses fortes. Nous soumettons à votre jugement les hypothèses et l'interprétation que nous serions enclins à faire - notez toutefois que nous ne sommes pas des experts des milieux scolaires. #### 2.4.1 Lien entre compétence numérique et niveau de certification PIX D'abord, concernant du choix du niveau moyen de certification PIX comme un proxy pour la compétence numérique de l'élève : notons qu'en réalité, d'autres facteurs entrent en compte. Se posent par exemple les questions de la qualité et l'absence de biais de la mesure, des conditions dans lesquelles les élèves ont passé la certification, de l'encouragement du personnel pédagogique à préparer cette épreuve etc. ```mermaid graph TD F[Niveau de certification PIX]:::obj G[Compétence numérique] J[Implication de l'élève sur la campagne PIX] K[Taux de réponse à la certification PIX]:::var L[Implication de l'établissement sur la campagne PIX] M[Conditions pratiques de passage de la certification] L-->J L-->K J-->K J-->F G--->F G--->J M--->F classDef obj fill:#f96 classDef var fill:lightblue ``` > Extrait du graphe causal présentant les hypothèses qui justifient l'utilisation du niveau de certification PIX comme proxy à la compétence numérique. [Graphe complet en annexe](#Annexe-3nbsp-Graphe-de-causalité). L'inclusion dans l'analyse du taux de réponse à la certification PIX comme variable de contrôle permet de compenser une partie des biais mentionnés, comme cela transparaît dans le graphique ci-dessus. Le choix de la variable cible amalgame toutefois les co-facteurs non-observés, et non corrélés au taux de réponse à la certification PIX, dans ce que nous appelons la "compétence numérique de l'élève". #### 2.4.2 Interprétation de l'influence de l'indice de position sociale et du taux de mention bien et très bien au brevet ```mermaid graph TD A[Proximité au numérique] A2[Expérience numérique] B[Implication scolaire] C[Réussite scolaire] D[Indice de position sociale]:::var E[Environnement familial favorable à l'implication scolaire] F[Niveau de certification PIX]:::obj G[Compétence numérique] H[Mention B et TB au brevet]:::var I[Autres facteurs, par exemple liés à l'établissement] J[CSP] K[Accompagnement numérique des parents] A-->D E-->D E-->B I-->B B-->C C-->H J-->A J-->E J-->K K--->G A--->A2-->G B---->A2 G--->F classDef obj fill:#f96 classDef var fill:lightblue ``` > Extrait du graphe causal présentant les hypothèses pour l'interprétation des influences de l'IPS et du taux de mention B et TB sur le niveau de certification PIX. [Graphe complet en annexe](#Annexe-3nbsp-Graphe-de-causalité). Ensuite concernant l'indice de position sociale : cet indice a été créé comme substitut quantitatif à la catégorie socio-professionnelle (ici, des parents), à travers le prisme de la « "distance" à l'école » et intègre diverses données. [[1]](#Références) Notons d'abord que parmi les variables utilisées, certaines donnent une information sur la proximité supposée de l'élève à l'informatique, avec par exemple la présence d'un ordinateur à la maison, ou d'une connexion internet. C'est à nuancer toutefois, car l'indice a été construit à partir de données de 2008 et 2011, et que les usages numériques ont pu largement évoluer depuis. Un autre lien que nous serions enclins à faire est celui de l'implication scolaire de l'élève. Si la certification PIX n'est pas à proprement parler une évaluation des acquis scolaires (les questions ne se rapportent pas à un cours précis), les autres cours du collège apportent une culture de certains outils numériques dont peuvent traiter les questions de PIX : tableur, éditeur de texte, recherche sur internet, etc. Ainsi, les enfants plus impliqués à l'école (et donc dans des familles avec un indice de position sociale plus élevé) ont sans doute plus de chance de s'exercer à ces outils dans le cadre de leur cursus scolaire. La seconde variable la plus influente est le taux de mentions bien et très bien au brevet dans l'établissement. Cette variable est très corrélée au niveau de certification PIX (comme c'est visible dans l'[analyse exploratoire](#Annexe-1nbsp-Résultats-de-l’analyse-exploratoire)), et pourtant le coefficient d'influence est relativement faible : cela s'explique sans doute parce que l'indice de position sociale est pertinent pour mesurer l'implication à l'école, et que le taux de mention bien et très bien au brevet y est lui-même fortement corrélé. L'influence mesurée est donc plutôt à attribuer aux autres facteurs influant sur le taux de mention bien et très bien au brevet : par exemple, les effets de groupes, l'impact de l'établissement et du corps professoral, etc. #### 2.4.3 Interprétation de l'influence du taux de réponse à la certification PIX Le troisième paramètre influant identifié est le taux de réponse à la certification PIX. Nous formulons l'hypothèse suivante : un taux de réponse élevé est lié à une grande implication des professeurs pour encourager cette certification. Lorsque cette implication est plus faible, les élèves les moins enclins à passer la certification PIX sont sans doute ceux qui ont l'expérience numérique la plus faible. Cette hypothèse est compatible avec l'observation qu'un taux de réponse plus élevé conduit à un niveau de certification plus faible en moyenne. #### Interprétation de la non-significativité de l'indice de fragilité numérique La non-significativité de l'indice de fragilité numérique n'est pas surprenante, malgré la corrélation entre niveau moyen de certification PIX et l'IFN. En effet, il est d'abord moins ciblé que l'indice de position sociale (par exemple, il intègre des éléments comme la part de personnes âgés, ou l'accès aux services publics, qui sont éloignés de la problématique de cette étude). Ensuite, les informations sont également redondantes avec celles portées par l'indice de position sociale : pauvreté, diplômes, chômage sont étroitement liés aux catégories socio-professionnelles. Pour ces raisons, le lien entre indice de fragilité numérique et compétence numérique est en grande partie masqué par la présence de la variable plus ciblée de l'indice de position sociale. ## 3) Conclusion Au vu des résultats, il nous semble pertinent de construire un Indice de Fragilité Numérique Parentalité. L'indice de position sociale est une base intéressante pour définir un IFN Parentalité. En effet, il a une influence notable sur les compétences numériques des élèves et intègre déjà des disparités territoriales via les catégories socio professionnelles. Nous pensons qu'il est possible d'aller plus loin dans l'inclusion de variables liées au territoire. Nous proposons comme prochaine étape de bien définir l'objectif d'un tel indice : quel volet de la compétence numérique, quelle politique publique souhaiterait utiliser l'IFN parentalité etc. Cela permettra de dégager des pistes (nouvelles variables, nouveaux jeux de données) pour créer l'IFN parentalité le plus pertinent. ### Pistes d'amélioration Nous avons constaté les pistes d’améliorations suivantes à apporter au modèle : - Les contributions des variables Taux de réponse à la certification PIX et Taux d'étrangers dans la commune semblent non-linéaires, le modèle bénéficierait de la prise en compte de cette non-linéarité. - Nous avons été surpris par l'influence positive entre les variables expclicatives "Taux de non-couverture Très Haut Débit" et "Distance aux bibliothèques", et la variable cible. Nous pensons que cette influence n'est pas due à ces variables en elles-mêmes, mais révèle plutôt un lien avec la typologie de territoire (densités, urbain vs rural etc). Inclure des variables qualifiant la typologie de territoire semble donc une piste prometteuse, et demande de poursuivre les explorations. - Enfin, le modèle peut être amélioré en pondérant les établissements par leur nombre d'observations, pour éviter que des établissements avec trop peu d'observations ne viennent biaiser les résultats. ## Annexe 1 : Détails de la modélisation Le modèle utilisé pour cette étude est un modèle linéaire bayésien à l'aide du package R Rstanarm. Les variables "Taux de réponse à la certification PIX" et "Taux d'étrangers dans la commune" ont été transformés en leur logarithme. Toutes les variables explicatives ont été normalisées. Ci-dessous sont présentés en détails les résultats du modèle, sous format tabulaire avec les détails du modèle, puis sous format graphique avec les intervalles de confiance à 90%. ``` stan_lm family: gaussian [identity] formula: pix_score ~ ips + brevet_mention_b_tb + pix_taux_couverture + ifn_tx_etrangers + ifn_tx_fammono + ifn_dist_bibliotheque + ifn_tx_non_thd observations: 443 predictors: 8 ------ Median MAD_SD (Intercept) 2.2666 0.0076 ips 0.0785 0.0093 brevet_mention_b_tb 0.0189 0.0096 pix_taux_couverture -0.0146 0.0074 ifn_tx_etrangers -0.0063 0.0084 ifn_tx_fammono -0.0050 0.0085 ifn_dist_bibliotheque 0.0181 0.0078 ifn_tx_non_thd 0.0158 0.0076 Auxiliary parameter(s): Median MAD_SD R2 0.2838 0.0330 log-fit_ratio 0.0016 0.0317 sigma 0.1580 0.0056 ``` ![](https://hackmd.io/_uploads/rky-_SbIi.png) Pour la vérification de la qualité du modèle, nous avons vérifié la distribution des données générées par rapport aux données réelles, avec une bonne superposition. ![](https://hackmd.io/_uploads/H1qz_rbIs.png) ## Annexe 2 : Graphe de causalité ![](https://hackmd.io/_uploads/rkmCL5qHo.png) ## Annexe 3 : Jeu de données non retenus Deux jeux de données non pas du tout été retenus. En voici les raisons : * Données DMA, analytics des ETN : L'utilisation des ENT sur l'année 2020-2021 par les parents et par les élèves semble encore peu représentative de la population étudiée. De plus ces données sont complexes et impossibles à vérifier. * Boursiers : Le jeu de données présente les taux de boursiers par établissement pour les établissements publics. Il y manque les établissements privés. Or la part des collégiens qui étudient dans un établissemt privé représente 27% des collégiens français. Nous avons préféré ne pas utiliser ce jeu pour s'assurer de ne pas rajouter un biais. # Références [1] Rocher, T. (2016). Construction d'un indice de position sociale des élèves. Éducation & formations, (90), 5-27.