Séminaire PEPI/CATI Mars 2022

# Séminaire PEPI/CATI Mars 2022 ###### tags: `seminaire` ### Contraintes matérielles - Vidéo projecteur - 2ieme ecran si possible / cable HDMI - Paper board , feutres ### temps de démarrage - Cadrage de l'atelier : thème, objectifs, ... - Brise glace selon le nombre de participants. Par exemple tour de table - nom/prénom/centre/CATI - ce que le participant fait sur la thématique et où il en ait - Pourquoi il est à l'atelier / avec quoi ou quelles information il aimerait repartir ? (Si trop de monde alors écrire sur papier) - #### CATI - GEDEOP, SICPA, CODEX, SoNET, PlantBreed, BARIC, BOOM, GREP, PROSODIe, DIISCICO, EMPREINTE ### Déroulé - 9h - 12h #### Présentations - 9h - 10h30 - (30 min) Francois : Cassandra, une solution Big Data pour le Cati Sicpa ##### Discussions sur l'utilisation de cassandra : - Point clef : construction des clés de hachage/partitionnement - reutilisation avec Spark - Cassandra versus utilisation Full Spark - Reutilisation des données et traitement - nettoyage de la donnée - utilisation SAS/R/Notebook - Utilisation Scala / Python - developpement de l'expertise (prog. fonctionnelle) - Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques ##### retour - curiositer sur les technologies et les uses cases existants - Presentations - cassandra - gestion de l'IoT Ok - cout d entrée faible dans le BG - use case genomique - mode map/reduce adaptable à la génomique - forte technicité (spark/hadoop/infra) - cout d entrée fort - use case metabolomique - en cours d'evaluation pour l'association Web semantique/Spark - forte technicité (spark/hadoop/infra) - cout d entrée fort - Questions soulevées - Stratégies de repartitions des données en cassandra - *?anticiper les besoins d'utilisation* - Cassandra versus une utilisation Full Spark - Reutilisation des données et traitement - nettoyage de la donnée - utilisation SAS/R/Notebook - *?comment se caler sur une organisation de type Data Engineer/Data Scientist sur une infra Big Data* - verroux : developpement de l'expertise prog. fonctionnelle : Scala / Python - Actions potentielles - Categorie "Big Data" / forum pepi2g - Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques - L.Legrand/J. Gouzy => organisation d'une "formation" (2/3j) Spark avec ses données. - (30 min ) Ludo : Hadoop et Spark, installation d'un cluster ##### Discussions - (30 min) Olivier : Infrastructure Big Data pour les Systemes d'information MetaboHUB #### Pause - 20 min - Possibilité de mettre en sous-groupe de 2 à 4 personnes. Avoir une consigne claire de ce qui doit être discuté (ce que ça vous évoque et quelles questions ça vous pose). ### Débat en grand groupe / Thème - 10h50 - 12H - Pourquoi utiliser SPARK ou similaire - Positionnement d'une infra big data dans le workflow de acquisition/traitement/exploitation de la donnée - Commencer un projet SPARK from scratch (avec infra ou sans) ### temps de clôture Ce temps est très important et ne doit pas être négligé - Synthétiser ce qui s'est passé - 3 mots pour finir / 1 phrase avec laquelle le participant repartirait (lui demander de se rappeler ce qu'il a dit au début)