# Veille collaborative Data - Innovation, tech et action publique #2
###### Avril 2021
> Cette veille collaborative est une sélection de brèves, d’informations, d'articles de fond ou de compte-rendus d'événements passés, proposés ici afin de partager l'actualité de l'innovation tech et datascience pratiquée dans l'administration française.
>
> Cette publication ambitionne de devenir mensuelle (à voir selon l'actualité) et a pour objectif de favoriser les échanges, les rencontres, le partage d’expériences (et d‘outils!) utilisés par différentes équipes pour résoudre les défis de la datascience au service de l'action publique.
>
## 1 • RETEX
### Datadrink (en ligne)
#### Programme du prochain Datadrink le 28 avril 16h30-17h30
* Améliorer la **production des données de cartographie sous-marine** en apprenant des corrections apportées par les agents pour automatiser une partie du processus : par Julian Le Deunf du ***Service Hydrographique et Océanographique de la Marine***
* **Améliorer la statistique publique** à l’aide de nouvelles techniques et outils de traitement de données par Frédéric Comte et Marc Hufschmitt du ***SSP Datalab de l'INSEE***
* **Signaux Faibles** : outil d’analyse prédictive des difficultés des entreprises par Simon Lebastard et Vincent Viers
:blue_book: **[S'inscrire ici](https://www.eventbrite.fr/e/billets-datadrink-du-lab-ia-etalab-150773530689)**
### Agilité
#### par la Fabrique Numérique Defense Connect
Aujourd’hui, de nombreuses méthodes Agile se côtoient. Laquelle choisir ? Plusieurs éléments sont à prendre en compte : la maturité du produit et de l’équipe, la taille de cette équipe, le type d’organisation qui prédomine dans l’environnement technique, etc. Dans tous les cas, l’objectif est toujours le même : réaliser des produits numériques qui répondent au mieux aux besoins des utilisateurs, par nature, évolutifs.
:blue_book: **[Article : Ils m’entrainent au bout de l’agile](https://blog.beta.gouv.fr/fabnumdef/2021/04/02/au-bout-de-l-agile/)**
## 2 • Juridique
### :flag-eu: UE : Présentation du futur règlement sur l'intelligence artificielle
La Commission a présenté le 21 avril son grand plan visant tour à tour à encadrer ou interdire les usages de l’intelligence artificielle les plus risqués (notamment ceux pouvant porter atteinte aux droits fondamentaux, comme la police prédictive ou migratoire) et à développer les investissements dans la technologie.
De futures obligations à respecter :
* Des ensembles de données de haute qualité pour l’entraînement des algorithmes (représentatifs, sans biais, adaptés à l’ère géographique où ils seront déployés);
* Une documentation technique et un historique des caractéristiques générales, des capacités et des limites du système;
* La transparence pour les utilisateurs;
* Un contrôle humain;
* Des exigences de robustesse, d’exactitude et de cybersécurité.
:blue_book: **[Lien article UE (*en français*)](https://ec.europa.eu/france/news/20210421/nouvelles_regles_europeennes_intelligence_artificielle_fr)**
### 🏛 CNIL - Protection des données : publication du 8è cahier Innovation et Prospective
Scènes de la vie numérique : des situations problématiques aux chemins du droit, une exploration du rapport quotidien à la protection des données et de la vie privée.
:blue_book: **[Lire la publication](https://www.cnil.fr/sites/default/files/atoms/files/cnil_cahier_ip8.pdf)**
## 3 • Pour les Data Scientists
### 🕵️ Catalogue des datasets de data.gouv.fr pour le Machine Learning
De nombreux jeux de données sont disponibles sur data‧gouv.fr et leur utilisation pour des application de machine learning est sous-exploitée. Il n'est en effet pas toujours évident de déterminer si ces jeux de données sont adaptés à des algorithmes d'apprentissage automatiques. S'ils le sont, se pose la question des performances atteignables pour la tâche à entraîner.
> Voici une première version d'un inventaire de jeux de données de data‧gouv.fr pour le Machine Learning, à consulter ici : https://pad.incubateur.net/s/PnYaKNDJb
Vous y trouverez :
* une liste des datasets identifiés comme étant exploitables par des algorithmes de machine learning, regroupés par tâche (régression, classification, séries temporelles).
* un profiling statistique de chaque dataset, permettant de voir en un clin d’oeil “à quoi ressemble” le dataset (nombre et caractéristiques de ses variables etc.) et d’avoir un résumé de ses statistiques descriptives.
* les résultats de l’entraînement et du test automatique d’*algorithmes* classiques de machine learning sur ces données.
*NB : le profiling a été effectué à l’aide de Pandas Profiling et les modèles ont été entrainés à l’aide de mljar-supervised*
### 🐼 Pandas Profiling : analyse exploratoire de données en open source
Pandas Profiling est un outil devenu incontournable et le moyen le plus simple de faire une analyse exploratoire des données à l'aide de Python. **Pandas Profiling est un outil open-source permettant de générer des rapports HTML interactifs (ou dans un notebook Jupyter)** détaillant les types de données de l’ensemble de données, mettant en évidence les valeurs manquantes, fournissant des statistiques descriptives telles que la moyenne, l’écart-type et l’asymétrie, créant des histogrammes et renvoyant toute corrélation potentielle.
* **Voir la documentation** :
https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/introduction.html
* **Voir le repo du code** :
https://github.com/pandas-profiling/pandas-profiling
Alternative : https://pypi.org/project/sweetviz/
### 🤓 OCR - Le Lab IA de la Dinum investigue un nouvel outil mutualisé
Après l'outil de pseudonymisation de données, le Lab IA de la Dinum lance cette année en investigation un nouvel outil mutualisé, dont **l'objectif est de permettre de numériser (ou plus précisément d'OCRiser) des documents administratifs et d'en extraire des informations.**
Les administrations ont en effet régulièrement besoin d’exploiter en masse des documents administratifs sous des formats non directement utilisables (PDF scannés, images, etc…). L’information contenue dans ces documents, pour être exploitée, doit passer par des étapes de reconnaissance optique de caractère (OCR), d'extraction et de structuration, qui sont vite très chronophages si elles doivent être réalisées à la main. Pour cela, le Lab IA envisage de créer un outil qui permette de traiter en masse des documents (ex : des bulletins de salaires), en fournissant en sortie un jeu de données structurées (avec par exemple pour colonnes Nom, Prénom, Rémunération, etc…).
> Se projet se veut à l’écoute des besoins des différentes administrations, il est possible d'écrire à l’équipe du Lab IA pour leur faire part de besoins ou leur poser des questions (lab-ia@data.gouv.fr).
### 🌎 Idée formation : Python pour l'analyse géospatiale
Vous avez des données géolocalisées à traiter mais vous ne savez pas comment faire ? Il n'est pas nécessaire de passer par un Système d'Informations Géographiques (SIG). Cette formation vous permettra d'acquérir les bases de la géomatique, et vous donnera des outils simples pour travailler avec vos données. A la fin de ces trois jours, vous serez en mesure d'explorer et de représenter vos données géospatiales à l'aide de l'écosystème scientifique du langage Python.
> **Dates : du 07 au 11 juin - 3j - Formation à distance**
https://makina-corpus.com/formations/python-pour-lanalyse-geospatiale
## 4 • Revue de presse
### :newspaper: Quand l’Insee se nourrit de données privées - *13 avril 2021*
*Avec la crise sanitaire, l’institut utilise de plus en plus les big data. Comment ouvrir la statistique publique aux données collectées dans le cadre d’une activité commerciale, sans pour autant être piégé dans un rapport de dépendance ?*
On raconte qu’il y a eu des négociations âpres entre l’administration française et les propriétaires de données massives – les banques, les opérateurs téléphoniques, les plateformes de vente en ligne etc. –, que l’administration a tenu bon pour que les données massives soient transférées gracieusement ou à un coût limité. Autrement dit : pas de profit privé grâce à la crise sur le dos des contribuables.
*Par Anne-Laure Delatte, chargée de recherches au CNRS (Leda, université Dauphine). Article complet en PJ*
## 5 • Recrutement : besoin de stagiaires ?
> *Les étudiantes et étudiants en Master à l’Ecole d’Affaires publiques de Sciences Po formé·e·s dans la spécialité « Digital and public policy » sont prêt·e·s à commencer leur stage !*
Vous travaillez sur des missions de transfo num / régulation / conseil / recherche et études et vous êtes à la recherche de jeunes talents ?
Toutes les offres de :
- Stages courts pour cet été
- Stages longs à partir de la rentrée
- Apprentissages pour 1 an (3 jours employeur / 2 jours école)
- Emploi (CDD, CDI, etc.) pour les jeunes diplômé·e·s
/ ! \ Offres pour des profils anglophones particulièrement recherchées !
### Questions, commentaires, contribution
:::info
Ceci est la deuxième mouture d'une publication qui pourra être enrichie dans ses futurs n° par vos contributions, issues de vos veilles respectives. N'hésitez pas à me signaler des articles ou sujets qui vous sembleraient d'intéret pour nos réflexions ou travaux communs.
- **Contact:** Cécile LE GUEN - SI1 / <cecile.le-guen@douane.finances.gouv.fr>
:::
###### tags: `DGDDI`