# Retour Atelier "Big Data"
###### tags: `seminaire` `inrae` `pepi`
---
## Inscrits
- Technologies BG
- Uses cases existants
- Comment commencer un projet
---
## Presentations
- cassandra
- gestion de l'IoT Ok
- cout d entrée techno. faible dans le BG
- use case genomique
- mode map/reduce adaptable à la génomique
- forte technicité (spark/hadoop/infra)
- cout d entrée techno. fort
- use case metabolomique
- en cours d'evaluation pour l'association Web semantique/Spark
- forte technicité (spark/hadoop/infra)
- cout d entrée techno. fort
---
## Questions soulevées
- Stratégies de repartitions des données en cassandra
- *?anticiper les besoins d'utilisation*
- Cassandra versus une utilisation Full Spark
- Reutilisation des données et traitements
- nettoyage de la donnée
- utilisation SAS/RNotebook
- utilisation et connaissances des lib ML
- *?comment se caler sur une organisation de type Data Engineer/Data Scientist sur une infra Big Data*
- verroux : developpement de l'expertise prog. fonctionnelle : Scala / Python
---
## Actions potentielles
- Categorie "Big Data" / forum
- Formation pour réutiliser les données via un notebook / framework ML et analyses statistiques
- L.Legrand/J. Gouzy => organisation d'une "formation" (2/3j) Spark avec ses données.
login: ofilangi
mot de passe: Okitfotfo
Serveurs Occitanie
frontal - 10.0.0.11 (147.100.202.42)
spark-1 - 10.0.0.253
spark-2 - 10.0.0.35
spark-3 - 10.0.0.47
spark-4 - 10.0.0.46
Serveurs IdF
frontal-idf - 10.0.0.184 (138.102.223.150)
spark-idf-1 - 10.0.0.231
spark-idf-2 - 10.0.0.116
spark-idf-3 - 10.0.0.167
spark-idf-4 - 10.0.0.80
{"metaMigratedAt":"2023-06-16T21:03:51.137Z","metaMigratedFrom":"Content","title":"Retour Atelier \"Big Data\"","breaks":true,"contributors":"[{\"id\":\"c1f4ce69-b653-4fc4-b416-667c6c1a1d8e\",\"add\":1755,\"del\":69}]"}