---
type: slide
slideOptions:
transition: slide
theme: white
---
# Sortie de SAS
## Atelier DERA du 05 septembre 2022
[TOC]
---
## [Le contexte](https://intranet.insee.fr/jcms/c_2334386/information-sortie-de-sas?id=c_2334386&preview=true)
- augmentation du coût des licences SAS de 300 %
- migration de SAS 9 vers SAS Viya à faire d'ici janvier 2025
=> CD du 4 juillet : on sort de SAS
---
### Une sortie en 2 temps
- fin 2023 : arrêt des licences logicielles SAS
- fin 2025 : migration vers des langages open-source (R, Python...)
---
### Concrètement
Pour chaque processus, 2 solutions possibles :
- on réécrit les chaînes de traitement en R (ou Python ?) d'ici fin 2023
- on s'assure que les chaînes s'executent bien en WPS et on prévoit la réécriture d'ici fin 2025
---
### Les fichiers
- Un format de fichier préconisé : [Parquet](https://arrow.apache.org/docs/r/index.html)
- format équivalent aux tables SAS
- inclus les métadonnées (types des variables)
- compressé et multi-fichiers
- calculs parallèles facilités (avec Spark)
- "évaluation paresseuse" avec les verbes de dplyr
- format du futur Arc
- format CSV dans les cas simples
---
### Le format parquet
Charger une table
```r
library(arrow)
df <- read_parquet("path/to/file.parquet")
```
Sauvegarder une table
```r
write_parquet(df, "path/to/different_file.parquet")
```
Sauvegarder une table en plusieurs fichiers
```r
df %>%
group_by(var) %>%
write_dataset("path/to/directory")
```
---
### L'accompagnement prévu à l'Insee
- Une gouvernance de pilotage et suivi du projet
- une offre de formation en R accrue
- un accompagnement de la DSI
Tout ça reste à préciser !
---
### Liens utiles
- [Espace Symphonie sortie de SAS](https://intranet.insee.fr/jcms/c_2334386/information-sortie-de-sas?id=c_2334386&preview=true)
- [Espace collaboratif "Opération sortie de SAS" sur Symphonie](https://intranet.insee.fr/jcms/c_2334959/espace-operation-sortie-de-sas)
- [WPS](https://intranet.insee.fr/jcms/c_2338649/le-logiciel-wps-est-accessible-sous-aus-pour-permettre-aux-selfeurs-de-faire-de-premiers-tests)
- [Comité de certification des packages (COPS)](https://intranet.insee.fr/jcms/c_2154371/le-cops-comite-de-certification-des-packages-en-r)
- [Les plateformes de travail](https://intranet.insee.fr/jcms/c_2071800/les-plateformes)
- documentation [utilitR](https://www.utilitr.org/)
---
## Au DERA
- 22 opérations identifiées codées en SAS (hors pôles et SNTDA)
- 3 à abandonner (SIASP, Epure)
- 9 à 11 à basculer en R avant fin 2023
- 8 à 10 à basculer vers WPS
- affiner la stratégie de bascule pour chacune
- 2 bascules prioritaires :
- l'enquête emploi
- la production de la BTS
---
### A court terme
- début de la réécriture de la chaine aval de l'EEC
- expérimentations sur le format de livraison de la BTS (Parquet)
- définition plus fine de la stratégie de bascule
- mission de Marc Vidalenc
---
### Une opportunité pour améliorer nos pratiques
- attention particulière à la qualité du code (objectif de maintenabilité forte)
- versionnage du code (utilisation de Git)
- Groupe [gitlab DERA](https://gitlab.insee.fr/dera) pour centraliser le code (ouvert à tous)
---
### Montée en compétence collective
- formations R et Git (mais pas que !)
- [groupe Tchap d'entraide DERA](https://www.tchap.gouv.fr/#/room/#InseeDeraEntraideffICQa0TCaC:agent.finances.tchap.gouv.fr)
- accompagnement, tutorat, pair programming...
- ateliers du DERA consacrés au sujets (présentations, revues de code...)
- anticipation de la plateforme data-science. Expérimentations possibles sur Onyxia (SSP-cloud ou Datalab interne)