--- type: slide slideOptions: transition: slide theme: white --- # Sortie de SAS ## Atelier DERA du 05 septembre 2022 [TOC] --- ## [Le contexte](https://intranet.insee.fr/jcms/c_2334386/information-sortie-de-sas?id=c_2334386&preview=true) - augmentation du coût des licences SAS de 300 % - migration de SAS 9 vers SAS Viya à faire d'ici janvier 2025 => CD du 4 juillet : on sort de SAS --- ### Une sortie en 2 temps - fin 2023 : arrêt des licences logicielles SAS - fin 2025 : migration vers des langages open-source (R, Python...) --- ### Concrètement Pour chaque processus, 2 solutions possibles : - on réécrit les chaînes de traitement en R (ou Python ?) d'ici fin 2023 - on s'assure que les chaînes s'executent bien en WPS et on prévoit la réécriture d'ici fin 2025 --- ### Les fichiers - Un format de fichier préconisé : [Parquet](https://arrow.apache.org/docs/r/index.html) - format équivalent aux tables SAS - inclus les métadonnées (types des variables) - compressé et multi-fichiers - calculs parallèles facilités (avec Spark) - "évaluation paresseuse" avec les verbes de dplyr - format du futur Arc - format CSV dans les cas simples --- ### Le format parquet Charger une table ```r library(arrow) df <- read_parquet("path/to/file.parquet") ``` Sauvegarder une table ```r write_parquet(df, "path/to/different_file.parquet") ``` Sauvegarder une table en plusieurs fichiers ```r df %>% group_by(var) %>% write_dataset("path/to/directory") ``` --- ### L'accompagnement prévu à l'Insee - Une gouvernance de pilotage et suivi du projet - une offre de formation en R accrue - un accompagnement de la DSI Tout ça reste à préciser ! --- ### Liens utiles - [Espace Symphonie sortie de SAS](https://intranet.insee.fr/jcms/c_2334386/information-sortie-de-sas?id=c_2334386&preview=true) - [Espace collaboratif "Opération sortie de SAS" sur Symphonie](https://intranet.insee.fr/jcms/c_2334959/espace-operation-sortie-de-sas) - [WPS](https://intranet.insee.fr/jcms/c_2338649/le-logiciel-wps-est-accessible-sous-aus-pour-permettre-aux-selfeurs-de-faire-de-premiers-tests) - [Comité de certification des packages (COPS)](https://intranet.insee.fr/jcms/c_2154371/le-cops-comite-de-certification-des-packages-en-r) - [Les plateformes de travail](https://intranet.insee.fr/jcms/c_2071800/les-plateformes) - documentation [utilitR](https://www.utilitr.org/) --- ## Au DERA - 22 opérations identifiées codées en SAS (hors pôles et SNTDA) - 3 à abandonner (SIASP, Epure) - 9 à 11 à basculer en R avant fin 2023 - 8 à 10 à basculer vers WPS - affiner la stratégie de bascule pour chacune - 2 bascules prioritaires : - l'enquête emploi - la production de la BTS --- ### A court terme - début de la réécriture de la chaine aval de l'EEC - expérimentations sur le format de livraison de la BTS (Parquet) - définition plus fine de la stratégie de bascule - mission de Marc Vidalenc --- ### Une opportunité pour améliorer nos pratiques - attention particulière à la qualité du code (objectif de maintenabilité forte) - versionnage du code (utilisation de Git) - Groupe [gitlab DERA](https://gitlab.insee.fr/dera) pour centraliser le code (ouvert à tous) --- ### Montée en compétence collective - formations R et Git (mais pas que !) - [groupe Tchap d'entraide DERA](https://www.tchap.gouv.fr/#/room/#InseeDeraEntraideffICQa0TCaC:agent.finances.tchap.gouv.fr) - accompagnement, tutorat, pair programming... - ateliers du DERA consacrés au sujets (présentations, revues de code...) - anticipation de la plateforme data-science. Expérimentations possibles sur Onyxia (SSP-cloud ou Datalab interne)