# Ejercicio: Ensamble de genomas por métodos *De Novo* y Referencia 2024-2 ## Bioinformática @ Bioingeniería FIAD UABC Ensenada 2024-2 #### Instructor: Dante Alberto Magdaleno Moncayo # Instrucciones: Este ejercicio los vamos a plantear en un contexto aplicado. Supongamos que se diagnostica una nueva enfermedad y que de los pacientes infectados se tomaron muestras para realizar la secuenciación e identificar el genoma del patógeno que causa esta nueva enfermedad. Al tomar las muestras vamos a tener DNA del paciente y de los microorganismos que se encuentran en la zona del cuerpo que muestreo, incluyendo al patógeno de interés. En este ejercicio vamos a suponer que tienen al patógeno aislado y llevan a cabo la secuenciación con el sistema Illumina MiSeq, obteniendo 1,000,000 de lecturas de DNA paired-end de 300 pb de longitud. Ya con las lecturas, realizan el ensamble *De Novo* para conocer la arquitectura del genoma y la filogenómica del patógeno. El patógeno seguirá dispersándose y es de esperarse que comience a mutar generando nuevas variantes que tengan mayor o menor virulencia. Para identificar nuevas variantes se tiene que muestrear más pacientes de la región y de otras regiones geográficas en donde se haya diagnosticado la enfermedad. Como ya se cuenta con un genoma del patógeno (El que se ensamblo *De Novo*), este se toma como referencia para los nuevos ensambles, en los cuales las lecturas de secuenciación de las muestras obtenidas de nuevos pacientes, se alinean contra el genoma de referencia. En este ejercicio se realiza un ensamble *De Novo* y uno de referencia en el contexto planteado anteriormente. #### Con el prgrama FastQC compara el número de lecturas antes y después de correr trimmomatic para la limpieza de las lecturas, también compara las gráficas del los QS. **Entregables:** % de lecturas sobrevivientes totales: % de lecturas sobrevivientes en archivo R1: % de lecturas sobrevivientes en archivo R2: Gráficas del Quality Scores de los archivos r1 y r2, antes y después de correr trimmomatic. Para el ensamble *De Novo* pueden se utilizarán el ensamblador A5_pipeline y MEGAHIT, este ensamblador está optimizado para ensamble de metagenomas, pero también funciona bien para un solo genoma. ## Instalación de software y links: #### Instalación de ensamblador MEGAHIT * Link paper MEGAHIT : [https://www.ncbi.nlm.nih.gov/pubmed/25609793] En la terminal correr el siguiente comando: ***conda install -c bioconda megahit*** #### Secuencias generadas por el sistema de secuenciación Illumina MiSeq de 300 bases de longitud paired-end para el ensamble *De Novo*. * Link para descargar las secuencias forward: [https://drive.google.com/open?id=1PB_GwSuYVjMI5bTGFaygTmyfKYLAGsvn] * Link para descargar las secuencias reverse: [https://drive.google.com/open?id=1XFVmNoJdBaJ0zZGsDMRQA7_3hWksjE-n] **Entregables:** - Captura de pantalla de la terminal cuando se esté corriendo el ensamble. - Número de contigs obtenidos del ensamble. - Número de nucleótidos del contig con mayor longitud. - Nombre del organismo al que pertenece el genoma ensamblado con evidencia. **El contig con mayor longitud se utilizará para el ensamble por referencia.** ## Ensamble por referencia #### Secuencias generadas por el sistema de secuenciación Illumina MiSeq de 300 bases de longitud paired-end para el ensamble por refrerencia. * Link para descargar las secuencias forward: [https://drive.google.com/open?id=1aROWsQcKYJs9Z7eZHOQluPx5HFhJYcCi] * Link para descargar las secuencias reverse: [https://drive.google.com/file/d/1U2bmcTn3VopkYSK0zuE_pP7nCL5rZB-w/view?usp=sharing] **Entregables:** % de lecturas sobrevivientes totales: % de lecturas sobrevivientes en archivo R1: % de lecturas sobrevivientes en archivo R2: Gráficas del Quality Scores de los archivos r1 y r2, antes y después de correr trimmomatic. **Entregables:** - Captura de pantalla de la terminal cuando se esté corriendo cada paso del ensamble por referencia. - Captura de pantalla de la visualización del ensamble por referencia con TABLET viewer. - Número de variantes (SNPs) y posición del genoma ensmblado por referencia.