---
title: 'sujet-stage_simulation_de_data'
tags: Stage Tutoré
---
# Mise en place d'une procédure de simulation de données de métabarcoding
## Contexte scientifique
Les biologistes s'intéressant aux microbiotes d’environnements divers (intestinal, du sol, aquatique, alimentaire etc.) utilisent des marqueurs génétiques pour en connaître leur composition et suivre leur évolution - le metabarcoding.
Les récents progrès des technologies de séquençage ont permis des avancées importantes dans l’étude du rôle des communautés microbiennes. Les analyses de gènes marqueurs de ces communautés, tels que le gène de l’ARN ribosomique 16S chez les bactéries, permettent d’explorer cette diversité microbienne et mettent en évidence leur rôle au sein des environnements.
Dans ce contexte, l’outil [FROGS](http://frogs.toulouse.inrae.fr/)* a été développé afin de pouvoir exécuter l’ensemble des étapes de traitement de ces données. FROGS est un logiciel permettant de traiter de manière précise, simple et robuste les lectures issues de séquençage metabarcoding. FROGS utilise des méthodes et des outils standards combinés à des approches originales et innovantes. Une des étapes, le clustering, consiste à regrouper les séquences initiales en OTUs (Operational Taxonomic Units) selon leur degré de similarité. Nous souhaitons aujourd’hui tester une nouvelle approche de clustering.
Pour cela, des jeux de données simulées sont nécessaires à la comparaison de cette nouvelle méthode par rapport à celle actuellement mise en place.
:::info
:mag_right: FROGS en chiffres:
* près de 14000 téléchargements dans le monde entier
* près de 500 citations
* 4 à 5 formations par an depuis 7 ans
* une communauté de plusieurs centaines d'utilisateurs
:::
## Objectif du stage
L’objectif de ce stage consiste à générer un jeu de données simulées d'ARN 16S suivant des contraintes imposées. Pour ce faire, il sera nécessaire (i) de mener une étude bibliographique des différents outils de simulation de données, (ii) de choisir celui ou ceux se rapprochant au mieux des conditions biologiques réelles (ajout de séquences chimériques, utilisation d’un modèle d’erreur de séquençage proche du séquenceur Illumina, position des primers, etc.), (iii) définir la procédure de simulation, et (iv) de générer un jeu de données simulées 16S avec cette procédure.
## Mots-clés
Métabarcoding, benchmarking, analyse bibliographique, données simulées.
## Encadrement
Le stage se déroulera en distanciel, avec pour encadrant l'ensemble du groupe de développeur FROGS:
- Vincent Darbot (encadrant principal) & Géraldine Pascal: INRAE Toulouse occitanie, unité GenPhySE
- Olivier Rué : INRAE Jouy en Josas, unité MaIAGE
- Maria Bernard : INRAE Jouy en Josas, unité GABI
- Lucas Auer : INRAE Nancy, unité IAM
Possibilité de venir sur le site INRAE de Castanet Tolosan pour rencontrer les encadrants ponctuellement.
## References
- [Escudie F., et al. Bioinformatics, 2018. FROGS: Find, Rapidly, OTUs with Galaxy Solution.](https://doi.org/10.1093/bioinformatics/btx791)
- [Bernard M., et al. Briefings in Bioinformatics, 2021. FROGS: a powerful tool to analyse the diversity of fungi with special management of internal transcribed spacers.](https://doi.org/10.1093/bib/bbab318)
<br>
<br>
<br>
{%hackmd r1NES0S5F %}