# Veille collaborative Data - Innovation, tech et action publique #1
> Cette veille collaborative est une sélection de brèves, d’informations, d'articles de fond ou de compte-rendus d'événements passés, proposés ici afin de partager l'actualité de l'innovation tech et datascience pratiquée dans l'administration française.
>
> Cette publication ambitionne de devenir mensuelle (à voir selon l'actualité) et a pour objectif de favoriser les échanges, les rencontres, le partage d’expériences (et d‘outils!) utilisés par différentes équipes pour résoudre les défis de la datascience au service de l'action publique.
>
### 1 • Spyrales
### Dernières nouvelles du réseau Spyrales : la communauté de soutien en Python et R entre agents de l'État
Pour rappel, des agents de différents ministères (Intérieur, Justice, Santé, Transition écologique et solidaire,..), et de plusieurs directions de Bercy, ont rejoint cette communauté dont l'objectif est de monter collectivement en compétences en matière de statistique et de programmation informatique. Des petits modules de formation sont partagés et organisés : R, Python, ML..
:pencil: Exemple, le `12 mai`, une formation/introduction au Machine Learning a été proposée à la communauté par Alice Schoenauer-Sebag, du pôle données de l'IGF, avec un petit TD à réaliser :
:arrow_down: La video replay de la conférence est en ligne [à télécharger](https://minio.lab.sspcloud.fr/strainel/spyrales_conf6_igf_20200512.mkv)
* Lien vers le support [JupyterBook "Introduction au ML"](https://github.com/aschoenauer-sebag/IntroToML/blob/master/IntroToML_Fr_IGPDE.ipynb)
:blue_book: **Liens**
* Site internet de la communauté
https://spyrales.netlify.app/
* Principes et manifeste
https://github.com/spyrales/organisation
* Le repository sur GitHub :
https://github.com/spyrales/web
:calendar: **Formations récentes**
* **Découverte de MLExplore, jeudi 28 mai** : un outil pour tester les différents modèles de machine learning à partir de vos données
### 2 • INSEE
**Onyxia** est le projet OpenSource de laboratoire de données proposé par l'Insee et le service statistique publique (*Le SPP est composé de 16 services statistiques ministériels où l’Insee assure la coordination.*)
Le SPP en tant que réseau, rencontre plusieurs problématiques face à l'évolution des méthodes et outils de traitement de données :
- outils et techniques difficiles d’accès et dépourvus d’environnements de test ;
- pouvoir exercer une mission d’éclairage du débat public en étant encore plus précis et plus réactif sur les thématiques actuelles et celles qui émergent ;
- coordonner 16 services statistique sans disposer d’infrastructure mutualisée.
Pour tenter d'y répondre, le SPP souhaite proposer une plateforme de data science mutualisée, ergonomique, sécurisée et accessible à distance.
Le défi consiste à créer non-seulement une plateforme de centralisation d’outils mais aussi une communauté d’échange de bonnes pratiques.
**Une version provisoire de la plateforme a été mise en production en mars 2020**, en soutien d’une communauté de statisticiens de l’État : **https://spyrales.sspcloud.fr**
**Il y a désormais 3 serveurs disponibles pour lancer les futurs services, comprenant 168 cpu et 2To de ram et 20 To de disques SSD sur le stockage objet.**
Pour créer un compte il suffit de remplir le formulaire (et avoir un mail en gouv.fr) après avoir cliqué sur login sur https://spyrales.sspcloud.fr
:tv: [Présentation de la plateforme en vidéo](https://minio.lab.sspcloud.fr/f2wbnp/presentation-onyxia.mkv) - `35 min`
La plateforme repose sur l’assemblage de technologies open source et cloud native : un stockage objet pour le datalake (minIO), des services déployables à la demande (Rstudio, Jupyter) avec un orchestrateur de conteneurs (marathon et kubernetes), et des outils de gestion de la sécurité (Vault, Keycloak).
Cette ouverture a permis de lancer une dynamique d’amélioration fondée sur la mise à l’épreuve rapide par les utilisateurs pour proposer des modifications pertinentes.
L'INSEE cherche désormais à solidifier la démarche afin de pouvoir proposer une offre de services, et a déposé un projet qui a été sélectionné dans le programme EIG de cette année : [voir la fiche projet "création d'un cloud data open source"](https://entrepreneur-interet-general.etalab.gouv.fr/defis/2020/ssp-datalab.html)
* Le repository sur GitHub :
https://github.com/InseeFrLab
### 3 • Datadrink #6 du Lab IA: Data science & COVID-19
Les datadrinks est un meetup organisé par le Lab IA d'Etalab, avec pour objectif de rassembler une communauté d'agents publics intéressés par l'innovation à l'aide d'outils d'intelligence artificielle.
Au programme du Datadrink du 23 avril 2020 :
- Le travail d’orientation médicale (*les questionnaires de détection de symptômes du Covid-19*) mis en œuvre sur gouvernement.fr et l‘utilisation de ces données pour la compréhension de l’épidémie.
- L'explication et la publication de l'algorithme d'orientation :
https://delegation-numerique-en-sante.github.io/covid19-algorithme-orientation/algorithme-orientation-covid19.html
- Les modèles de prédiction de l’épidémie selon différentes conditions de confinement dans six pays.
- Modèle de prévision de l'évolution de l'épidémie dans le monde à partir des données de cas confirmés + outil de visualisation associé.
- Travail de la cellule de crise sanitaire sur les opérations et l’harmonisation des flux de données pour la modélisation, et la réflexion en cours sur les indicateurs pour le déconfinement. **Une fois le confinement terminé: quels indicateurs pour prévenir et gérer les prochaines vagues de l’épidémie?**
:tv: [Pour revoir la vidéo](https://visio.betagouv.live/playback/presentation/2.0/playback.html?meetingId=c3e2e0f06d3b5b41c37f007776802c391ad4cd6c-1587647183384) - `55 min`
**Data Drink #7**
:calendar: Jeu. 4 juin 2020
**Sujet : Projets Data science développés pendant la crise sanitaire pour mesurer son impact**
- Aliette Cheptiski et Mikael Beatriz, du **département de la Conjoncture de l’INSEE**, ont présenté leurs travaux d’estimation de la perte d’activité et ont expliqué comment ils ont adapté leur méthodologie initiale à la crise sanitaire actuelle.
- Pierre Camilleri de l’**équipe Signaux Faibles**, présentera le modèle de prédiction de la défaillance des entreprises et expliquera les évolutions en cours pour s’adapter au contexte de crise.
:tv: [Revisionner le Datadrink #7 sur ce lien](https://visio.incubateur.net/playback/presentation/2.0/playback.html?meetingId=bfbffc35880da87358915de2c5e5212e15ea0e37-1591277063379) `50 min`
Liens vers les présentations:
* [Data confinement](https://speakerdeck.com/etalabia/datadrink-04062020-baptiste-coulmont-dataconfinement)
* [Estimation de la perte d’activité par l'INSEE](https://speakerdeck.com/etalabia/datadrink-04062020-insee-conjoncture)
* [Signaux Faibles](https://speakerdeck.com/etalabia/datadrink-04062020-signaux-faibles)
:arrow_right: Chaque administration peut soumettre une présentation du projet de son choix. Typiquement un projet comme la conception de tableaux de bord Covid-douane y aurait toute sa place.
### 4 • Gouvernance des données
"**_Cette carte aura été le parfait cas d’école d’un projet "data" mené sans gouvernance_**". Intéressant retour sur le fail de la première carte tricolore diffusée par Santé Publique France.
:newspaper: Lire l'article sur Usine Digitale :
https://www.usine-digitale.fr/article/cartes-de-france-du-covid-19-les-dessous-d-un-accident-de-gouvernance-de-la-donnee-numerique.N961211
> " Dans ce cas précis, une saine gouvernance des données aurait permis d’alerter les analystes sur le risque lié à l'utilisation de ce type d’indicateur très volatil.
>
>
> À une époque où investisseurs et pouvoirs publics misent beaucoup sur l’intelligence artificielle et sur les algorithmes, le fait est qu’une tâche apparemment simple comme la publication d’une carte affichant deux indicateurs semble poser un vrai problème. Ce n’est pas un algorithme qui est mis en cause : il s’agit d’un problème de données mal standardisées et de procédures de contrôle défaillantes. **Le signe qu’il est plus que nécessaire d’intégrer de véritables expertises de la gouvernance des données dans toutes les organisations.**""
### 5 • IA, traitement automatique du langage et action publique
Le recours à l’**intelligence artificielle au sein de l’action publique** est souvent identifié comme une opportunité pour interroger des corpus de textes documentaires (emails, code du travail, décisions de justice, etc..) afin de développer des moteurs de recherche performants, améliorer la gestion des connaissances, ou de mettre à disposition un agent conversationnel (chatbot*)
*Un chatbot, ou agent conversationnel en français, est une IA spécialisée dans l’interaction avec un utilisateur.*
Autant d’activités qui **nécessitent de disposer de corpus de données d’entraînement de qualité** afin de développer des algorithmes de questions/réponses.
Partant du constat qu’il n’existe aujourd’hui pas de jeu de données francophone pour entraîner des algorithmes d’intelligence artificielle (IA) de questions-réponses, une tâche bien particulière de traitement automatique de langage, une équipe de la Dinum, accompagnée par [**reciTAL**](https://recital.ai/), une entreprise française spécialisée en Traitement Automatique du Langage naturel, a lancé un projet de construction d'un jeu de questions-réponses en français, public, ouvert et collaboratif.
Le projet appelé **PIAF** (Pour des Intelligences Artificielles Francophones) propose une plateforme d'annontation ouverte à tous, incluant un volet participatif et pédagogique.
* [Site du projet PIAF](https://piaf.etalab.studio/)
* [Plateforme d'annotation](https://app.piaf.etalab.studio/signup/)
* [Article scientifique publié](http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.673.pdf) présentant la méthodo, la plateforme d'annotation (architecture, fonctionnement) et premiers résultats.
#### L’exemple de la pseudonymisation des décisions de justice
Les algorithmes de questions-réponses permettent aussi d’explorer de nouvelles pistes dans des tâches de traitement automatique du langage. Prenons exemple sur la **pseudonymisation des décisions de justice** dont le principe d'ouverture a vocation à permettre une plus grande transparence de la justice, mais nécessite l’occultation d’informations personnelles comme des noms et des adresses, afin de respecter la vie privées des personnes mentionnées dans les décisions.
A l’heure actuelle, ce travail colossal doit être réalisée à la main (humaine), ce qui empêche une publication généralisée des 3,9 millions de décisions produites chaque année, publication prévue en open data par la loi pour une République Numérique.
Cette tâche pourrait être automatisée en ayant recours à diverses approches de traitement automatique du langage (TAL ou NLP en anglais), la plus évidente étant la reconnaissance d’entités nommées : noms de personnes, noms de lieux, etc.
L’apport d’un algorithme de questions-réponses serait de proposer une nouvelle approche pour reconnaître les éléments à pseudonymiser. En posant comme question « Qui ? », « Quand ? » ou encore « Où ? », cet algorithme est capable de faire de la reconnaissance d’entités nommées. Entraîné sur un volume conséquent de données, il offre donc des possibilités d’enrichissement de méthodes existantes de traitement du langage, et permet d’améliorer leurs performances.
:::info
#### :point_right: Lancement d'un outil gratuit de pseudonymisation
La DINUM met à disposition gratuitement un outil en version bêta de pseudonymisation où on peut simplement charger un fichier pour le faire apparaitre pseudonymisé
**http://datascience.etalab.studio/pseudo/**
:::
### 6 • Comment mesurer la valeur créée par des données publiées en open data ?
C'est une question souvent posée par les producteurs de données, en amont ou en aval de la publication de données. Comment être sûrs que les données seront utilisées, par qui, et pour que faire ?
Une première réponse à ces questions se fait par **prise de contact avec les réutilisateurs et parties prenantes** qui utilisent vos données pour en évaluer la qualité, le contenu et pour engager un dialogue permettant de pouvoir mieux répondre aux attentes et donc d'augmenter la valeur (et de la mesurer). Bien entendu la connaissance de toutes ces personnes ne sera jamais exhaustive, toutefois il est possible d'en dégager de grands ensembles et de cibler une communication, une main tendue pour inviter à se rencontrer.
#### Le cas de l'ARCEP
C'est par exemple ce que vient de faire l'Arcep cette semaine avec la mise en place d'un cycle d’échanges autour des données et du site "[**Ma connexion internet**](https://maconnexioninternet.arcep.fr)", qui rassemble toutes les informations (débit, statistiques) sur la couverture des réseaux et services des différents opérateurs sur le territoire.
L'ARCEP ouvre une phase de travail avec les acteurs et réutilisateurs de ces données en mettant à disposition de la [**documentation technique**](https://www.arcep.fr/fileadmin/cru-1589991844/user_upload/Ma_connexion_internet/Presentation-Generale_Ma-Connexion-Internet-version-beta.pdf) et des [données en open data](https://www.data.gouv.fr/fr/datasets/ma-connexion-internet-beta/) (sur data.gouv), dans l'objectif de publier suite aux retours des utilisateurs, des éléments complémentaires tels que des algorithmes et des extraits de base de données source.
Concrètement, pour initier cette démarche, l'ARCEP organise **deux webinars** ouverts à tous, d'une durée d'1h30, pour présenter la façon dont les données sont calculées ou produites, ou encore pour donner des clés de compréhension sur les mailles géograhiques choisies.
C'est exactement ce type d'initiatives d'ouverture vers l'extérieur qui permet de répondre assez précisément à la question de la valeur des données publiées.
### Conférence Berlin Buzzwords du 7 au 12 Juin
Berlin Buzzwords est une conférence tech orientée sur le stockage, le traitement, le streaming et l’analyse de grandes volumétries de données avec un prisme architecture et monitoring. On y parle donc Spark, Flink, Kylin, Cassandra, Lucene, HBase, Kafka, Solr, Hadoop, Samza, Mahout, Elasticsearch, MongoDB etc..
Cette année, la conférence est maintenue mais dispensée en ligne. [Toutes les infos ici.](https://berlinbuzzwords.de/about)
[Programme des talks et workshops](https://berlinbuzzwords.de/schedule?day=2020-06-07) autour de ces thèmes :
* le streaming de données en temps réel
* le monitoring de systèmes distribués, avec plusieurs retours d’expérience sur ElasticSearch et Solr ;
* des solutions cloud d’auto-scaling.
### Questions, commentaires, contribution
:::info
Ceci est une première mouture qui pourra être enrichie dans les n° suivants par des contributions issues de vos veilles respectives. N'hésitez pas à me signaler des articles ou sujets qui vous sembleraient d'intéret pour nos réflexions ou travaux respectifs.
- **Contact:** Cécile LE GUEN - SI1 / <cecile.le-guen@douane.finances.gouv.fr>
:::
###### tags: `DGDDI`