# POC Big Data Diane --- ## Résil : enseignements retirés ---- ## Projet Accueil des sources * **accueil des sources** : instruire évolution technique ARC -> nouveau POC à mettre en place; * **mise à disposition des données** : données au format Parquet sur un S3, Trino pour l'exploration en interactif des données ; ---- ## Accueil : l'existant - **points positifs** - l'outil ARC répond au besoin fonctionnel de la MOA Résil (également MOA ARC) - les temps de traitement sont acceptables pour une source: 9 jours pour les fichiers Pasrau mensuels ---- ## Accueil : évolutions possibles - **besoins** - être en mesure d'accueillir plus de sources et plus rapidement - scalabilité - **travaux en cours** - mise en place de traitements distribués Spark - benchmark à venir ---- ## Mise à disposition - **besoin métier** - MAD des données en sortie du service d'accueil - à destination d'applications ou d'utilisateurs - **pour les applications** - faciliter le traitement en mode batch de ces gros volumes : PostgreSQL, Spark - **pour les utilisateurs** - traitement exploratoires : DBeaver, R, Python ---- ## Une architecture possible ```plantuml @startuml component [S3] actor utilisateur node App node "kubernetes" { node metastore database bddHive package "Accueil" { [ARC] database postgreSQL node sparkmaster node sparkworkers { node worker_i node worker_j } sparkmaster --> sparkworkers sparkworkers --> S3 sparkWorkers --> metastore S3 --> sparkworkers ARC --> postgreSQL ARC --> sparkmaster } package "Mise à disposition" { node sparkMaster node trinoCoordinator node trinoApi node sparkWorkers { node worker_k node worker_l } node trinoWorkers { node worker_s node worker_t } metastore --> bddHive sparkMaster --> sparkWorkers trinoCoordinator --> trinoWorkers sparkWorkers --> metastore metastore --> sparkWorkers metastore --> trinoWorkers trinoApi --> trinoCoordinator sparkWorkers --> S3 trinoWorkers --> S3 S3 --> sparkWorkers S3 --> trinoWorkers utilisateur --> trinoApi App --> sparkMaster } } @enduml ``` ---- ## Démonstration ---- https://projet-arc-resil-poc-516263-0.kub.sspcloud.fr/lab/tree/madresil.ipynb https://projet-arc-resil-poc-836779.kub.sspcloud.fr/vnc.html https://datalab.sspcloud.fr/mes-fichiers/projet-arc-resil-poc/mad/ ----
{"metaMigratedAt":"2023-06-16T21:23:43.255Z","metaMigratedFrom":"Content","title":"POC Big Data Diane","breaks":true,"contributors":"[{\"id\":\"fc49955c-c8fd-4a3c-93ed-0e186fa665d5\",\"add\":4362,\"del\":1894}]"}
    95 views