# Séminaire PEPI/CATI Mars 2022
###### tags: `seminaire`
### Contraintes matérielles
- Vidéo projecteur
- 2ieme ecran si possible / cable HDMI
- Paper board , feutres
### temps de démarrage
- Cadrage de l'atelier : thème, objectifs, ...
- Brise glace selon le nombre de participants. Par exemple tour de table
- nom/prénom/centre/CATI
- ce que le participant fait sur la thématique et où il en ait
- Pourquoi il est à l'atelier / avec quoi ou quelles information il aimerait repartir ?
(Si trop de monde alors écrire sur papier)
-
#### CATI
- GEDEOP, SICPA, CODEX, SoNET, PlantBreed, BARIC, BOOM, GREP, PROSODIe, DIISCICO, EMPREINTE
### Déroulé - 9h - 12h
#### Présentations - 9h - 10h30
- (30 min) Francois : Cassandra, une solution Big Data pour le Cati Sicpa
##### Discussions
sur l'utilisation de cassandra :
- Point clef : construction des clés de hachage/partitionnement
- reutilisation avec Spark
- Cassandra versus utilisation Full Spark
- Reutilisation des données et traitement
- nettoyage de la donnée
- utilisation SAS/R/Notebook
- Utilisation Scala / Python
- developpement de l'expertise (prog. fonctionnelle)
- Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques
##### retour
- curiositer sur les technologies et les uses cases existants
- Presentations
- cassandra
- gestion de l'IoT Ok
- cout d entrée faible dans le BG
- use case genomique
- mode map/reduce adaptable à la génomique
- forte technicité (spark/hadoop/infra)
- cout d entrée fort
- use case metabolomique
- en cours d'evaluation pour l'association Web semantique/Spark
- forte technicité (spark/hadoop/infra)
- cout d entrée fort
- Questions soulevées
- Stratégies de repartitions des données en cassandra
- *?anticiper les besoins d'utilisation*
- Cassandra versus une utilisation Full Spark
- Reutilisation des données et traitement
- nettoyage de la donnée
- utilisation SAS/R/Notebook
- *?comment se caler sur une organisation de type Data Engineer/Data Scientist sur une infra Big Data*
- verroux : developpement de l'expertise prog. fonctionnelle : Scala / Python
- Actions potentielles
- Categorie "Big Data" / forum pepi2g
- Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques
- L.Legrand/J. Gouzy => organisation d'une "formation" (2/3j) Spark avec ses données.
- (30 min ) Ludo : Hadoop et Spark, installation d'un cluster
##### Discussions
- (30 min) Olivier : Infrastructure Big Data pour les Systemes d'information MetaboHUB
#### Pause - 20 min
- Possibilité de mettre en sous-groupe de 2 à 4 personnes. Avoir une consigne claire de ce qui doit être discuté (ce que
ça vous évoque et quelles questions ça vous pose).
### Débat en grand groupe / Thème - 10h50 - 12H
- Pourquoi utiliser SPARK ou similaire
- Positionnement d'une infra big data dans le workflow de acquisition/traitement/exploitation de la donnée
- Commencer un projet SPARK from scratch (avec infra ou sans)
### temps de clôture
Ce temps est très important et ne doit pas être négligé
- Synthétiser ce qui s'est passé
- 3 mots pour finir / 1 phrase avec laquelle le participant repartirait (lui demander de se rappeler ce qu'il a dit au
début)