# POC Big Data Diane
---
## Résil : enseignements retirés
----
## Projet Accueil des sources
* **accueil des sources** : instruire évolution technique ARC -> nouveau POC à mettre en place;
* **mise à disposition des données** : données au format Parquet sur un S3, Trino pour l'exploration en interactif des données ;
----
## Accueil : l'existant
- **points positifs**
- l'outil ARC répond au besoin fonctionnel de la MOA Résil (également MOA ARC)
- les temps de traitement sont acceptables pour une source: 9 jours pour les fichiers Pasrau mensuels
----
## Accueil : évolutions possibles
- **besoins**
- être en mesure d'accueillir plus de sources et plus rapidement
- scalabilité
- **travaux en cours**
- mise en place de traitements distribués Spark
- benchmark à venir
----
## Mise à disposition
- **besoin métier**
- MAD des données en sortie du service d'accueil
- à destination d'applications ou d'utilisateurs
- **pour les applications**
- faciliter le traitement en mode batch de ces gros volumes : PostgreSQL, Spark
- **pour les utilisateurs**
- traitement exploratoires : DBeaver, R, Python
----
## Une architecture possible
```plantuml
@startuml component
[S3]
actor utilisateur
node App
node "kubernetes" {
node metastore
database bddHive
package "Accueil" {
[ARC]
database postgreSQL
node sparkmaster
node sparkworkers {
node worker_i
node worker_j
}
sparkmaster --> sparkworkers
sparkworkers --> S3
sparkWorkers --> metastore
S3 --> sparkworkers
ARC --> postgreSQL
ARC --> sparkmaster
}
package "Mise à disposition" {
node sparkMaster
node trinoCoordinator
node trinoApi
node sparkWorkers {
node worker_k
node worker_l
}
node trinoWorkers {
node worker_s
node worker_t
}
metastore --> bddHive
sparkMaster --> sparkWorkers
trinoCoordinator --> trinoWorkers
sparkWorkers --> metastore
metastore --> sparkWorkers
metastore --> trinoWorkers
trinoApi --> trinoCoordinator
sparkWorkers --> S3
trinoWorkers --> S3
S3 --> sparkWorkers
S3 --> trinoWorkers
utilisateur --> trinoApi
App --> sparkMaster
}
}
@enduml
```
----
## Démonstration
----
https://projet-arc-resil-poc-516263-0.kub.sspcloud.fr/lab/tree/madresil.ipynb
https://projet-arc-resil-poc-836779.kub.sspcloud.fr/vnc.html
https://datalab.sspcloud.fr/mes-fichiers/projet-arc-resil-poc/mad/
----
{"metaMigratedAt":"2023-06-16T21:23:43.255Z","metaMigratedFrom":"Content","title":"POC Big Data Diane","breaks":true,"contributors":"[{\"id\":\"fc49955c-c8fd-4a3c-93ed-0e186fa665d5\",\"add\":4362,\"del\":1894}]"}