# Anotación de genomas y llamado de variantes (variant calling) ## Bioinformática 2025-2 @ Bioingeniería FIAD UABC Ensenada #### Instructor: Dante Alberto Magdaleno Moncayo En este taller se utilizarán los resultados del taller anterior. ## Entregables: ### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando. ### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación. ### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes. ## Datos para comenzar a trabajar: - Genoma obtenido del ensamble *de novo* en formato fasta. - Directorio donde se encuentran los archivos obtenidos del resultado del ensamble por referencia. El software y las instrucciones de instalación para trabajar en el taller se encuentran en el siguiente link: https://hackmd.io/wvqj9oDkRfGstr715NboNg ## Anotación de genoma - Activar el ambiente prokka - Desde la terminal, moverse al directorio donde se encuentran los resultados del ensamble por referencia, utilizar el archivo del genoma ensamblado *de novo* en formato fasta, el cual se utilizó como genoma de referencia. - Correr en la terminal el comando de anotación (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario): ### *`prokka --kingdom Viruses --outdir Directorio_de_resultados genoma_de_novo.fasta`* Los resultados obtenidos de la anotación se muestra en la siguiente imagen: ![](https://i.imgur.com/52EvIjc.png) Desactivar el ambiente prokka con el comando: ### *`conda deactivate`* **Revisar cada uno de los archivo generados por la anotación.** Abrir el visualizador UGENE y cargar el archvio con terminación .gbk que se generó en el proceso de anotación del genoma. - Cuántos genes se anotarón? - Cuál es la longitud y ubicación de cada gen en el genoma? - Cuál es la función de cada gen? ## Llamado de variantes (Variant calling) - Activar el ambiente var - Desde la terminal moverse al directorio donde se encuentran los resultados del ensamble por referencia. 1.- Indexar el genoma de referencia ### *`samtools faidx genoma_de_novo.fasta`* 2.- Indexar el archivo del ensamble .bam sorted ### *`bamtools index -in ensamble.sorted.bam`* 3.- Crear un directorio con el nombre variantes 4.- Utilizando el programa freebayes, correr el siguiente comando (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario): ### *`freebayes -f genoma_de_novo.fasta ensamble.sorted.bam > variantes/covid19.freebayes.vcf`* 5.- Revisar en la terminal el archivo generado con los siguientes comandos (cada uno por separado) ### *`cat variantes/covid19.freebayes.vcf | head`* ### *`cat variantes/covid19.freebayes.vcf | grep -v '##' | head -4`* 6.- Comprimir el archivo covid19.freebayes.vcf ### *`bgzip variantes/covid19.freebayes.vcf`* 7.- Correr los siguientes comandos en el orden que se muestra y cada uno por separado. ### *`tabix -p vcf variantes/covid19.freebayes.vcf.gz`* ### *`rtg vcfstats variantes/covid19.freebayes.vcf.gz`* Al terminar de correr el segundo comando, en la terminal se debe desplegar lo que se muestra en la imagen: ![](https://i.imgur.com/n9VEIJH.png) **Analiza e interpreta resultados.** 8.- Con bcftools generar un archivo con los estadísticos. ### *`bcftools stats -F genoma_de_novo.fasta -s - variantes/covid19.freebayes.vcf.gz > variantes/covid19.freebayes.vcf.gz.stats`* Analizar el archivo generado. ## Análisis de resultados con el software IGV. 1.- En la terminal correr `igv` para abrir el programa con interface gráfica como se muestra en la imagen: ![](https://i.imgur.com/2VIZ4hT.png) 2.- En el menu de IGV que se encuentra en la parte supeior, dar click en **genomes** y cargar el genoma de referencia. 3.- Descomprimir desde la terminal el archivo covid19.freebayes.vcf.gz que se encuentra en el directorio variantes. ### `gzip -dk covid19.freebayes.vcf.gz``` 4.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo **covid19.freebayes.filtered.vcf** ya descompreso. 5.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo con terminación .gff que se encuentra en el directorio de los resultados de anotación con prokka. Al cargar los archivos se debe observar lo siguiente: ![](https://i.imgur.com/3Qxq2eK.png) Dar zoom y analizar los resultados. ## Entregables: ### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando. ### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación. ### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes. # El reporte de resultados, análisis, discusión e interpretación, de la **ANOTACIÓN** serán expuestos en la clase.