# Présentation YMCA Coline Royaux 7 janvier 2021
Ce jeudi 7 janvier à 13h00, Coline animera une démonstration des outils
galaxy, suite à son séminaire de lundi.
Voici le lien vers le tutoriel pour calculer les EBV, que Coline nous a
conseillé d'essayer avant la séance:
https://training.galaxyproject.org/training-material/topics/ecology/tutorials/PAMPA-toolsuite-tutorial/tutorial.html
## Rattrapage café scienti



## Démo
Vous pouvez accéder à l'instance européenne Galaxy-E via cet URL: https://ecology.usegalaxy.eu/
-> vous pouvez utiliser Galaxy sans vous créer de compte, mais du coup il y a des limitations, sinon vous pouvez vous enregistrer en utilisant un compte ORCID notamment.

Pour le chargement de données, vous pouvez charger des données depuis votre disque dur, mais vous pouvez aussi utiliser le mode "Paste/Fetch Data" pour copier/coller des URL pointant vers des données et ainsi les envoyer directement depuis le serveur où elles sont stockées vers votre historique Galaxy. Un des intérêts de cette deuxième méthode est que la connexion réseau étant top côté Galaxy, les imports peuvent être méga rapide !

Démo sur données STOC anonymisées

L'une des particularités du workflow développé est qu'on a fixer les noms des colonnes à utiliser pour l'analyse. Du coup, si vous avez 3 colonnes portant des informations de type "localisation géographique" mais à des grains différents (exemple une colonne "point précis GPS", une colonne département (ou carré STOC ici par exemple), une colonne "région"), alors il faudra renommer le nom de la colonne qu'on souhaite prendre en compte dans l'analyse. Ainsi, on pourra changer le nom de la colonne "point précis GPS" par "location"

Un point d'entrée pour les sources (scripts / fonctions) = l'app store Galaxy : https://toolshed.g2.bx.psu.edu/
rubrique Ecology pour les outils développés spécifiquement pour l'analyse en écologie. Si outil de type regex ou autre, alors ce sera dans une autre rubrique
Donc lien direct vers ce qu'il y a derrière outil "Estimate temporal population variation" par exemple = https://toolshed.g2.bx.psu.edu/repository/browse_repository?id=185c6f585bdbe615
où vous avez les scripts R et les fichiers xml permettant de générer les "formulaires web" Galaxy et fichier de test servant pour les test unitaires utilisés pour vérifier que l'outil fonctionne (voir balise "test" du xml de l'outil Galaxy)
D'une manière générale, les outils Galaxy-E sont développés via ce repository github https://github.com/galaxyecology/tools-ecology Ne pas hésiter à commenter, contribuer !
## Retours sur le tuto https://training.galaxyproject.org/training-material/topics/ecology/tutorials/PAMPA-toolsuite-tutorial/tutorial.html ?
### Famous JB feedback -> storytelling mode ON
*6 Janvier 2021 10:52 Amazing JB said:*
"Je suis un peu étonné pour G .morhua, je m'attendais à des tendances au déclin significatives, comme j'avais trouvé initialement lorsque j'avais exploré tout ca il y a quelques années, mais surement parce que j'utilisais les données de la mer du Nord..."
*6 Janvier 2021 13:42 Amazing JB said:*
"bizarre le cas de la morue, hein? ce serait intéressant de regarder ce que donne les scripts avec les données North-Sea BTS (dispo au meme endroit, et j'imagine, au même format)"
*6 Janvier 2021 14:44 Wonder Coline said:*
"Pour G. morhua sur les données NS-IBTS je suis justement en train de refaire tourner le workflow dessus depuis que j'ai reçu le mail d'Yvan Je vous tiens au courant des résultats (peut-être que ça aura déjà fini de tourner à la fin de mon mail ;) "
*6 Janvier 2021 15:12 Wonder Coline said:*
"Victoire ! Le workflow a bien tourné je vous mets juste les plots que j'ai en sortie et ça semble cohérent avec ce que tu avais vu a priori JB ;) Si tu veux que je t'envoie tous les résultats de GLM obtenus hésite pas"

*6 Janvier 2021 15:38 Wonder Coline said:*
"j'ai simplement extrait un workflow et refait tourner sur un historique tout beau tout propre (la magie de Galaxy !!!!) : https://ecology.usegalaxy.eu/u/coline_royaux/h/pampa-ns-ibts-g-morhua"
*6 Janvier 2021 18:28 Amazing JB said:*
"Je trouve pas d'autre formulation originale en dehors de "mortel", "trop cool", "ca déchire"; mais tout ca est hyper excitant!!!!
nickel Coline pour les tendances morhua avec le NSBTS!!!"
# Présentation café scienti Coline Royaux 4 janvier 2021
lien de téléchargement de la présentation : https://data-access.cesgo.org/index.php/s/wKPEJcEAbUIz7l2
## Contexte
### Erosion biodiversité
- Echec Aichi target / GLOBAL BIODIVERSITY OUTLOOK 5 https://www.cbd.int/gbo5
### Données de biodiv
- Disponibilité / Accessibilité / Intéropérabilité
### Métriques de biodiv
- Comparabilité / Représentativité / Sensibilité
### Analyse en biodiv
- Reproductibilité / Automatisation / Rigueur
## Objectifs
- Mise en place outils informatiques répondant à ces besoins
## Cadre des variables essentielles de Biodiversité (EBV) et la vision EBV workflow
voir Kissling et al. 2017 "Building essential biodiversity variables (EBVs) of species distribution and abundance at a global scale" https://onlinelibrary.wiley.com/doi/full/10.1111/brv.12359
## Galaxy -> Galaxy-E et lien avec concept EBV
## Processus intégration de scripts (notamment R) dans Galaxy
- Types de données + Données d'exemple
- Atomisation des scripts
- D'un script qui fait tout à un script par étape analytique élémentaire (import de données biodiv, import de données auxiliaires, manipulation des données de type filtre, manipulation des données de type conversion, analyse de la donnée par GLM, visualisation des données, ...)
=> il faut alors potentiellement un fort travail pour identifier le niveau pertinent d'atomisation
- Généralisation des scripts atomisés
- Faire en sorte de faire de chaque "atome" une brique analytique réutilisable dans un nombre de cas maximum (ex : fonctionne sur données papillons, mais en fait il est peut-être pertinent que cela soit aussi applicable directement à des données oiseaux, il faut alors penser "méta" et voir comment définir de manière "générale" les variables primaires communes à ces jeux de données)
=> il faut ici aussi potentiellement un fort travail pour penser en dehors du jeu de données initial pour lequel a été créé le script et/ou du cadre d'application. Fortement lié aux aspects méthodes d'échantilonnage (ie si ce sont toutes des données obtenues par vidéos, il peut y avoir des étapes notamment de prétraitement, qui seront généralisées) utilisées et/ou type de résultats exploités pour publication (ie si on est dans un même cadre de calcul d'indicateur de diversité spcifique, on doit potentiellement pouvoir généraliser les outils)
- Echanges avec utilisateurs / potentiels conributeurs pour juger du niveau de qualité des développements et identifier les améliorations à apporter
## Exemple du workflow PAMPA issu des outils développés par Ifremer pour projet PAMPA
- lien vers tutoriaux Galaxy (intro à Galaxy, interface utilisateur, interface contributeur, analyse de données omiques, ...) https://training.galaxyproject.org/
- lien vers tutoriel Galaxy-E via workflow PAMPA : https://training.galaxyproject.org/training-material/topics/ecology/tutorials/PAMPA-toolsuite-tutorial/tutorial.html
# Questions
## café scienti
- possibilité d'enregistrer la démo YMCA ?
- A priori oui
- détection de traitements similaires ?
- possibilité de proposer des outils à l'utilisateur
- possibilité de "filtrer" la liste d'outils par mots -clés notamment type de données (csv, shp, fasta...)
- documentation accessible ?
- oui et plutôt lisible pour utilisateur / pour contributeur / pour adminsitrateur
- Galaxy fait pour bioinfo car pipeline "très simples" et s'enchainent bien. MAIS souvent on perd les mesures d'incertitude entre briques analysitiques.
- effectivement, un défaut potentiel des outils faciles à utiliser via clickodrome = le fait de le faire "sans trrop réfléchir" et il faut y faire attention ! Ici Galaxy propose des fonctionnalités poussées de traçage de provenance / chaque étape analytique est accessiblke et reproductible et ainsi l'utilisateur peut revenir sur un ancien historique et vérifier quel outil a été appliqués sur quelle donnée et avec quels paramètres
- Pour avoir accès à Galaxy il faut déposer un "projet" ?
- non, utilisable par tous. En revanche, si besoins spécifiques à un projet, genre avoir à disposition des To de stockages et/ou un type de calcul particuliers (genre cluster GPU pour IA) ou de grande capacité pour un certain temps, il vaut mieux alors faire une demande particulière liée au projet et bornée dans le temps.
## YMCA
# Commentaires