# Examen Genómica e ingeniería genética de algas. #### Instructor: Dante Alberto Magdaleno Moncayo # Instrucciones: Se te entregan 1,000,000 de lecturas de DNA paired-end de 300 pb de longitud, provenientes de la plataforma de secuenciación Illumina MiSeq. Realiza el ensamble *De Novo* para conocer la arquitectura del genoma e identifica a que organismo pertenece. Ya que tienes el resultado del ensamble de novo, utilizalo como genoma de referencia para realizar un ensamble de referencia con otro paquete de lecturas que se te proporcionan. **Entregables:** #### Con el prgrama FastQC compara el número de lecturas antes y después de correr trimmomatic para la limpieza de las lecturas, también compara las gráficas del los QS. % de lecturas sobrevivientes totales: % de lecturas sobrevivientes en archivo R1: % de lecturas sobrevivientes en archivo R2: Gráficas del Quality Scores de los archivos r1 y r2, antes y después de correr trimmomatic. Para el ensamble *De Novo* se utilizará el ensamblador MEGAHIT, este ensamblador está optimizado para ensamble de metagenomas, pero también funciona bien para un solo genoma. ## Instalación de software y links: #### Instalación de ensamblador MEGAHIT * Link paper MEGAHIT : [https://www.ncbi.nlm.nih.gov/pubmed/25609793] En la terminal correr el siguiente comando: ***conda install -c bioconda megahit*** #### Secuencias generadas por el sistema de secuenciación Illumina MiSeq de 300 bases de longitud paired-end para el ensamble *De Novo*. * Link para descargar las secuencias forward: [https://drive.google.com/open?id=1PB_GwSuYVjMI5bTGFaygTmyfKYLAGsvn] * Link para descargar las secuencias reverse: [https://drive.google.com/open?id=1XFVmNoJdBaJ0zZGsDMRQA7_3hWksjE-n] **Entregables:** - Captura de pantalla de la terminal cuando se esté corriendo el ensamble. - Número de contigs obtenidos del ensamble. - Número de nucleótidos del contig con mayor longitud. - Nombre del organismo al que pertenece el genoma ensamblado con evidencia. **El contig con mayor longitud se utilizará para el ensamble por referencia.** ## Ensamble por referencia #### Secuencias generadas por el sistema de secuenciación Illumina MiSeq de 300 bases de longitud paired-end para el ensamble por refrerencia. * Link para descargar las secuencias forward: [https://drive.google.com/open?id=1aROWsQcKYJs9Z7eZHOQluPx5HFhJYcCi] * Link para descargar las secuencias reverse: [https://drive.google.com/file/d/1U2bmcTn3VopkYSK0zuE_pP7nCL5rZB-w/view?usp=sharing] **Entregables:** % de lecturas sobrevivientes totales: % de lecturas sobrevivientes en archivo R1: % de lecturas sobrevivientes en archivo R2: Gráficas del Quality Scores de los archivos r1 y r2, antes y después de correr trimmomatic. **Entregables:** - Captura de pantalla de la terminal cuando se esté corriendo cada paso del ensamble por referencia. - Captura de pantalla de la visualización del ensamble por referencia con TABLET viewer. - Número de variantes (SNPs) y posición del genoma ensmblado por referencia. ## Fecha límete de entrega: viernes 21 de abril antes de las 17:59 horas.