Retour Atelier "Big Data"

# Retour Atelier "Big Data" ###### tags: `seminaire` `inrae` `pepi` --- ## Inscrits - Technologies BG - Uses cases existants - Comment commencer un projet --- ## Presentations - cassandra - gestion de l'IoT Ok - cout d entrée techno. faible dans le BG - use case genomique - mode map/reduce adaptable à la génomique - forte technicité (spark/hadoop/infra) - cout d entrée techno. fort - use case metabolomique - en cours d'evaluation pour l'association Web semantique/Spark - forte technicité (spark/hadoop/infra) - cout d entrée techno. fort --- ## Questions soulevées - Stratégies de repartitions des données en cassandra - *?anticiper les besoins d'utilisation* - Cassandra versus une utilisation Full Spark - Reutilisation des données et traitements - nettoyage de la donnée - utilisation SAS/RNotebook - utilisation et connaissances des lib ML - *?comment se caler sur une organisation de type Data Engineer/Data Scientist sur une infra Big Data* - verroux : developpement de l'expertise prog. fonctionnelle : Scala / Python --- ## Actions potentielles - Categorie "Big Data" / forum - Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques - L.Legrand/J. Gouzy => organisation d'une "formation" (2/3j) Spark avec ses données. login: ofilangi mot de passe: Okitfotfo Serveurs Occitanie frontal - 10.0.0.11 (147.100.202.42) spark-1 - 10.0.0.253 spark-2 - 10.0.0.35 spark-3 - 10.0.0.47 spark-4 - 10.0.0.46 Serveurs IdF frontal-idf - 10.0.0.184 (138.102.223.150) spark-idf-1 - 10.0.0.231 spark-idf-2 - 10.0.0.116 spark-idf-3 - 10.0.0.167 spark-idf-4 - 10.0.0.80

{"metaMigratedAt":"2023-06-16T21:03:51.137Z","metaMigratedFrom":"Content","title":"Retour Atelier \"Big Data\"","breaks":true,"contributors":"[{\"id\":\"c1f4ce69-b653-4fc4-b416-667c6c1a1d8e\",\"add\":1755,\"del\":69}]"}

114 views