CR du groupe de suivi sur les standards de métadonnées du 30 mai 2023

# CR du groupe de suivi sur les standards de métadonnées du 30 mai 2023 ## Ordre du jour définitif et compte-rendu synthétique : ### 1. Retour sur les conférences/présentations passées - **DDI Developers Hackathon (Göteborg)**. Voir le retour dans le [CR Groupe de suivi : réunion du 07/04/2023](https://intranet.insee.fr/jcms/16437730_SocialQuestion/groupe-de-suivi-reunion-du-07/04/2023) - **Conférence RDA (Research data Alliance)** RDA est une organisation importante et offre une bonne visibilité. Le support de la présentation Insee (Christophe D.) est disponible [ici](https://intranet.insee.fr/jcms/20466314_DBFileDocument/active-metadata-insee-rda?details=true) et l'ensemble des présentations du webinaire [ici](https://codata.org/initiatives/data-skills/ddi-training-webinars/webinar-ddi-fair-and-the-emergent-role-of-active-metadata/). - **Communauté de praticiens sur le LOD d'Eurostat** Une réunion de lancement s'est déroulée le 25 avril. Il s'agissait notamment de faire le tour des pratiques de chacun des pays et de présenter les travaux Eurostat sur la publication en LOD des classifications. Florian a participé et y représentera l'équipe métadonnées. Prochaine réunion le 29 juin. - **Retour sur les échanges avec France Cohortes / Constances** La présentation et la vidéo ont été transmises aux participants. Des travaux de création d'un DDI Profile sur les questionnaires est en cours. Cela va amener à réviser le document "Guide de modélisation DDI des questionnaires". Suite à cette révision, il sera opportun de les recontacter. - **The [WorldFAIR Project](https://worldfair-project.eu/) within the European and International Landscape (Webinar du 26 mai)** Le projet WorldFAIR est une initiative financée par la Commission européenne et englobant un large éventail de partenaires et d'initiatives internationales. Il vise à produire des recommandations, des frameworks d'interopérabilité et des lignes directrices pour l'évaluation des données FAIR. Une série de webinaires à venir est lancée. Ils visent à promouvoir et à discuter tous les rapports et résultats publiés et à venir des [11 études de cas](https://worldfair-project.eu/2023/04/24/worldfair-project-webinar-series-announced/) de cas du projet représentant un large éventail de sciences, de communautés et de défis, avec une couverture géographique mondiale. Deux cas d'utilisation pourront plus particulièrement nous intéresser, à savoir : [Social Surveys](https://worldfair-project.eu/2023/05/18/worldfair-output-webinar-series-overview-of-the-projects-first-round-of-disciplinary-reports-updates-from-the-social-surveys-wp6-and-cultural-heritage-wp13/) (le 14 juin) et Population Health (octobre 2023) - **Quality Working Group** Intervention de plusieurs pays (dont la France) pour aller au bout de la standardisation du SIMS (question des sub-concepts et tableaux) dans les différents domaines métier. Cette demande est plus particulièrement appuyée par l'institut Danois. Luca Gramaglia a signalé l'envoi automatisé de SIMS par l'Insee sur ICA (sous-jacent via RMéS). À nuancer car il s'agissait de tests, Eurostat n'étant pas totalement prêt. Autre sujet d'intérêt pour ce groupe concernant le GSBPM : les INS Danois et Suèdois qui avaient calqué leur organisation sur le GSBPM reviennent en arrière, notamment car cela déresponsabilise les acteurs, un retour d'expérience est prévu en 2024. ### 2. Retour sur le VTL Workshop du 26 mai Un workshop VTL au sein du SDMX Technical Working Group s'est déroulé le 26 mai. Parmi les participants, des banques centrales (BCE, Italie, Espagne), des INS (Italie, Canada, Mexique, France) et des organisations internationales (FMI, BRI, OCDE, UNICEF, BIT). Différents cas d'utilisation ont été présentés par la Banque d'Italie et par Antonio Olleros ([meaningful Data, éditeur de logiciels VTL](http://meaningfuldata.eu/)) et discutés en séance. A été décidé de lancer une Task Force avec trois principaux axes de travail : 1. une thématique générale sur le documentation, les outils, etc. 2. une thématique traitant des cas de nullable, les mesures multivaluées et la viralité 3. une troisième thématique sur l'enrichissement du langage de nouveaux opérateurs (non inclus dans la thématique 2) Florian Vucko (axe 2), Thomas Dubois et Romain Tailhurat (axe 1) participeront aux différents groupes de travail. Il sera toujours possible de suivre les autres axes voire proposer des cas d'utilisation (via les issues Github). Les supports de présentation et notes de la réunion seront bientôt disponibles. ### 3. Point sur les conférences/présentations à venir - **Workshop sur les données administratives ?** Une idée de nos collègues (notamment Jon Johnson) semble être d'organiser un workshop sur les données administratives accolé à la conférence Cosmos. Franck contactera Jon. À suivre... - **Quality Conference 2024** La Conférence Qualité se déroulera au Portugal (Estoril) les 5 et 6 juin 2024 : ouverture du site en juin, appel à contribution cet été - **Sensibilisation d'une demi-journée aux métadonnées** Le contenu de la présentation du sujet métadonnées au pôle Codex de Caen le 12 juin et, plus généralement, la question de pérenniser une sensibilisation des agents du SSP aux métadonnées (à l'image de la K'RMéS) ne relève pas du groupe de suivi sur les standards. Ce sujet est pris en charge par la cellule Métadonnées. ### 4. Point catalogage - **Retour sur le webinaire https://catalogue.data.gouv.fr du 25 avril organisé par la DINUM** Il s’agit pour des organisations (tous les ministères et administrations centrales, ainsi que les services déconcentrés et opérateurs sous leur tutelle) de bénéficier des fonctionnalités suivantes : - Consulter/découvrir le catalogue des données des organisations inscrites (sauf si accès restreint) - Créer des entrées de catalogue Ces fonctionnalités seront reprises dans data.gouv.fr, il s’agit plutôt de s’inscrire dans la feuille de route data.gouv.fr. Notons que le [schéma de catalogue.data.gouv.fr s'appuie sur le standard DCAT](https://github.com/etalab/schema-catalogue-donnees). Le principe est de prévoir des champs complémentaires, comme une forme d'extension au schéma commun à tous les ministères et compatible DCAT. Un API est également disponible : https://catalogue.data.gouv.fr/api/docs Peu de chose en plus de ce qui nous avait déjà présenté par la DINUM fin 2022 (sauf l’API). Rappel : la quasi totalité des champs se fait en mode libre. - **Retour sur le webinaire data.gouv.fr du 25 avril organisé par Etalab** Présentation tout public organisée tous les 6 mois. À noter : - Une meilleure mise en avant des métadonnées et de leur qualité (mise en place d’un score) sur les différentes pages - Des avancées conséquentes sur le moissonnage : notamment amélioration sur le format DCAT (supporte plus de métadonnées, fréquence, période temporelle) + meilleures performances sur les gros catalogues - L'amélioration des métriques d’utilisation des jeux de données L’objectif de fusionner avec catalogue.data.gouv c’est aussi de permettre de publier des fiches de jeux de données sans publier les données. Ils mettent en avant l’interopérabilité DCAT, avec le fait que data.europa.eu moissonne data.gouv Pas mal de questions sur les schémas (https://schema.data.gouv.fr/) équivalent à nos datastructure dans la séance de questions-réponses. --> Mylène contacte Céline Rouquette et Thierry Aouizerate pour étudier l'opportunité de référencer sur https://schema.data.gouv.fr/ nos schémas XML ou nos modèles de métadonnées (SDMX, XKOS, SDMX-MM/SIMS et autres) avec les données associées. - **Retour sur l'atelier "Data gouvernance à travers le cycle de vie de la donnée"** L'atelier consistait en un brainstorming en s'appuyant les objectifs stratégiques suivant : - Construire et partager un cycle de vie de la donnée - Définir une politique générale des données à l’échelle du MEFSIN (ou au sein de chaque direction) - Décrire les données collectées et/ou créées - Etablir des formats et méthodologies appliqués sur les paquets de données - Maîtriser la qualité des données à chaque instant du cycle de vie - Mettre en place des actions sur l’éthique des données : est-ce pertinent au sein du MEFSIN ? - Intégrer la donnée à tous les niveaux de la gouvernance - Tendre vers la production et fourniture de produits data" orientés vers les usages - Définir une priorisation des données Thomas a fait savoir que l'Insee avait fait le choix de DCAT comme standard pour la description du catalogue permettant ainsi une interopérabilité sémantique. Et que l'outil permettant d'en assurer la gestion devrait (dit au conditionnel) être développé en Open Source. Ce à quoi la DGFIP a répondu en parlant de possibilité de s'inscrire dans une logique communautaire open source (notamment pour l'outil de catalogage DCAT). En attente de recevoir une synthèse de l'atelier. - **Table ronde sur le catalogage et l'intérêt des standards** Dans le cadre de la mise La DREES souhaite une participation de l'Insee une table ronde le 27/06 sujet catalogage/intérêt des standards. Mylène organise une réunion préparatoire avec la DREES pour discuter du contenu. Participants à cet échange : Thomas, Florian et Franck ### 5. Interopérabilité : partage de documentation DDI avec le CASD Une instruction est en cours pour lancer une expérimentation sur le partage de documentation DDI d’un fichier de données entre l’Insee et le CASD. L'Insee s'appuie sur DDI via Colectica pour documenter ses fichiers de données (pour une douzaine de séries d'opérations statistiques actuellement et plus à venir pour la dataplateform), idem pour le CASD (DDI et Colectica). Afin de mieux documenter son offre pour les chercheurs, le CASD s'appuie sur le standard DDI pour diffuser sur son site cette documentation sous forme html (les variables avec un nom, un libellé voire la liste de codes correspondante). Au-delà d'un gain sur la charge côté CASD, pour l'Insee, il va s'agir d'un gain en qualité (cohérence garantie entre la documentation diffusée fournie par le producteur et celle fournie par le CASD). Cela pourrait aussi faire ressortir des questions pour être totalement interopérable car au-delà du standard, la définition de bonnes pratiques pourrait être nécessaire. À suivre... ### 6. Autres sujets - **Publication du billet [Quelle est la différence entre VTL et SQL ?](https://intranet.insee.fr/jcms/19745986_BlogPost/quelle-est-la-difference-entre-vtl-et-sql)** Ce billet reprend les réponses apportées par la communauté SDMX (en l'occurence des personnes de la division statistique de l'ONU, la Banque d'Italie et Meaningful Data) sur le forum dédié. - **Discussion sur la communauté concernant la diffusion en linked data dans la communauté statistique ?** Eurostat va peut-être faire ce travail, notamment via la communauté sur le LOD mise en place. Cependant, si vous souhaitez partager les référentiels de métadonnées en LOD connus, n'hésitez pas. - **Un point sur les mesures de similarités NLP et TAL entre les définitions des concepts** Mise en place de deux méthodes complémentaires (une statistique, l'autre probabiliste (embeddings)) pour mesurer la proximité entre les définitions dans les publications régionales et celles d'RMéS. Pourrait être répliqué par la suite pour voir l'évolution de la cohérence avec le référentiel au cours du temps. -> Quel espace pour les questions méthodo ?