# Anotación de genomas y llamado de variantes (variant calling)
## Bioinformática 2025-2 @ Bioingeniería FIAD UABC Ensenada
#### Instructor: Dante Alberto Magdaleno Moncayo
En este taller se utilizarán los resultados del taller anterior.
## Entregables:
### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes.
## Datos para comenzar a trabajar:
- Genoma obtenido del ensamble *de novo* en formato fasta.
- Directorio donde se encuentran los archivos obtenidos del resultado del ensamble por referencia.
El software y las instrucciones de instalación para trabajar en el taller se encuentran en el siguiente link: https://hackmd.io/wvqj9oDkRfGstr715NboNg
## Anotación de genoma
- Activar el ambiente prokka
- Desde la terminal, moverse al directorio donde se encuentran los resultados del ensamble por referencia, utilizar el archivo del genoma ensamblado *de novo* en formato fasta, el cual se utilizó como genoma de referencia.
- Correr en la terminal el comando de anotación (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario):
### *`prokka --kingdom Viruses --outdir Directorio_de_resultados genoma_de_novo.fasta`*
Los resultados obtenidos de la anotación se muestra en la siguiente imagen:

Desactivar el ambiente prokka con el comando:
### *`conda deactivate`*
**Revisar cada uno de los archivo generados por la anotación.**
Abrir el visualizador UGENE y cargar el archvio con terminación .gbk que se generó en el proceso de anotación del genoma.
- Cuántos genes se anotarón?
- Cuál es la longitud y ubicación de cada gen en el genoma?
- Cuál es la función de cada gen?
## Llamado de variantes (Variant calling)
- Activar el ambiente var
- Desde la terminal moverse al directorio donde se encuentran los resultados del ensamble por referencia.
1.- Indexar el genoma de referencia
### *`samtools faidx genoma_de_novo.fasta`*
2.- Indexar el archivo del ensamble .bam sorted
### *`bamtools index -in ensamble.sorted.bam`*
3.- Crear un directorio con el nombre variantes
4.- Utilizando el programa freebayes, correr el siguiente comando (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario):
### *`freebayes -f genoma_de_novo.fasta ensamble.sorted.bam > variantes/covid19.freebayes.vcf`*
5.- Revisar en la terminal el archivo generado con los siguientes comandos (cada uno por separado)
### *`cat variantes/covid19.freebayes.vcf | head`*
### *`cat variantes/covid19.freebayes.vcf | grep -v '##' | head -4`*
6.- Comprimir el archivo covid19.freebayes.vcf
### *`bgzip variantes/covid19.freebayes.vcf`*
7.- Correr los siguientes comandos en el orden que se muestra y cada uno por separado.
### *`tabix -p vcf variantes/covid19.freebayes.vcf.gz`*
### *`rtg vcfstats variantes/covid19.freebayes.vcf.gz`*
Al terminar de correr el segundo comando, en la terminal se debe desplegar lo que se muestra en la imagen:

**Analiza e interpreta resultados.**
8.- Con bcftools generar un archivo con los estadísticos.
### *`bcftools stats -F genoma_de_novo.fasta -s - variantes/covid19.freebayes.vcf.gz > variantes/covid19.freebayes.vcf.gz.stats`*
Analizar el archivo generado.
## Análisis de resultados con el software IGV.
1.- En la terminal correr `igv` para abrir el programa con interface gráfica como se muestra en la imagen:

2.- En el menu de IGV que se encuentra en la parte supeior, dar click en **genomes** y cargar el genoma de referencia.
3.- Descomprimir desde la terminal el archivo covid19.freebayes.vcf.gz que se encuentra en el directorio variantes.
### `gzip -dk covid19.freebayes.vcf.gz```
4.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo **covid19.freebayes.filtered.vcf** ya descompreso.
5.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo con terminación .gff que se encuentra en el directorio de los resultados de anotación con prokka.
Al cargar los archivos se debe observar lo siguiente:

Dar zoom y analizar los resultados.
## Entregables:
### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes.
# El reporte de resultados, análisis, discusión e interpretación, de la **ANOTACIÓN** serán expuestos en la clase.