# Bioinformática 2023-1
# Ensamble de genoma
## Parte 1: Ensamble *De Novo*
#### Instructor: Dante Alberto Magdaleno Moncayo
## Links secuencias:
* Link para descargar las secuencias forward: [https://drive.google.com/file/d/19nc-NcEEAnUtZt5lbceVc5uWMaziUH-k/view?usp=sharing]
* Link para descargar las secuencias reverse: [https://drive.google.com/file/d/1tBO6-g_kVEQGu2wY5CUVTyA5fC2SNTC4/view?usp=sharing]
## Analizar la calidad de las lecturas con el programa FastQC
El ensamblador que se utilizará en este taller es a5_pipeline, en los siguientes links encontrarás la información referente:
[https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0042304]
[https://pubmed.ncbi.nlm.nih.gov/25338718/]
En la siguiente imagen se muestra los pasos que lleva a cabo pipeline a5:

La primera etapa del pipeline A5 es limpiar las lecturas, eliminando las lecturas contaminantes y corrigiendo los errores de llamada base (Base Calling). Posteriormente, el pipeline ensambla contigs con el software IDBA utilizando las lecturas corregidas. Estos contigs posteriormente se ensamblan en scaffolds utilizando el set de lecturas originales. Enseguida, los scaffolds son revisados con el propósito de encontrar ensambles incorrectos y romper en las regiones que contienen los errores de ensamble. Finalmente, los scaffolds mal ensamblados se vuelven a ensamblar utilizando el set de lecturas originales.
## Ensamble con pipeline a5
-Para realizar en ensamble, desde la terminal llamar el script a5_pipeline.pl
-Enseguida llamar las secuencias fordward.
-Enseguida llamar las secuencias reverse.
-Dar un nombre de salida.
Ejemplo:
*a5_pipeline.pl forward.fastq reverse.fastq genoma_ensamblado*
Se debe dejar un espacio entre cada elemento.
Entregables:
Captura de pantalla de la gráfica de valores de calidad que arroja el programa FastQC.
Captura de pantalla de lo que se despliega en la terminal al correr el comando de ensamble con el pipeline A5.
- Qué algortimo utiliza el ensamblador del pipeline A5?
- Cuántos contigs arrojó el ensamble? de que longitud(nucleótidos)?
- A que organismo pertenece el genoma ensamblado?
#Parte 2 Ensamble: Ensamble por referencia
Para realizar el ensamble por referencia es necesario instalado y funcionando el siguiente software:
**NOTA:
Se requiere tener Bioconda para comenzar con la instalación.**
## Instalación de software y links:
* Link para ensamblador bowtie2: [http://bioconda.github.io/recipes/bowtie2/README.html]
* Link para paquetería samtools: [https://anaconda.org/bioconda/samtools]
* Link para vizualizador Tablet: [https://anaconda.org/bioconda/tablet]
- Generar un directorio con el nombre Ensamble_por_referencia
## Pasos del pipeline para ensamble por referencia:
1.- Indexar el genoma que se usará como referencia con el comando bowtie2-built, el genoma de referencia (el genoma de referencia es el que se obtuvo de la primer parte del taller) y un nombre de salida para el indexado como argumentos, como se muestra enseguida:
***bowtie2-build Genoma_Referencia.fasta referencia***
En el directorio Ensamble_por_referencia deberán generarse 6 archivos con terminación .bt2 que corresponde al indexado como se muestra en la siguiente imagen:

2.- Alineamiento con el comando bowtie2, el nombre del indexado, secuencias forward, reverse y nombre de salida con terminación .sam.
Ejemplo:
***bowtie2 -x referencia -1 ref_reads_R1.fastq -2 ref_reads_R2.fastq -S ensamble.sam***
Al terminal el proceso de alineamiento se genera un archivo llamado ensamble.sam
3.- Cambiar de formato .sam a .bam el archivo ensamble.sam como se muestra enseguida:
***samtools view -bS ensamble.sam > ensamble.bam***
Este comando genera un archivo con nombre ensamble.bam
4.- Ordenar (sort) el alineamiento con el siguiente comando:
***samtools sort ensamble.bam -o ensamble.sorted.bam***
Este comando genera un archivo con nombre ensamble.sorted.bam
5.- Indexar el archivo ensamble.sorted.bam con el siguiente comando:
***samtools index ensamble.sorted.bam***
Este comando genera un archivo con nombre ensamble.sorted.bam.bai
6.- Visualizar el ensamble en la terminal con el siguiente comando:
***samtools tview ensamble.sorted.bam Genoma_Referencia.fasta***
Este comando despliega en la terminal el alineamiento como se muestra en la siguiente imagen:

Para navegar el alineamiento en la terminal puedes utilizar las teclas de flechas o la barra espaciadora, para salir del alineamiento presiona la tecla q.
7.- Visualizar el ensamble por referencia con TABLET viewer.
Link información de TABLET viewer [https://ics.hutton.ac.uk/tablet/]
Entregables:
-Captura de pantalla de lo que despliega la terminal al correr cada uno de los comandos del ensamble por referencia.
-Captura de pantalla del el alineamiento de las lecturas con el genoma de referencia que arroja el programa Tablet.
-Cuántos SNPs se encontraron?