# Anotación de genomas y llamado de variantes (variant calling)
## Bioinformática @ Bioingeniería FIAD UABC Ensenada
#### Instructor: Dante Alberto Magdaleno Moncayo
#### Alumnos:
Hernández Ponce Braulio Andres **1277856**
Olachea Ortega Veronica Eleonor **364510**
Romero Hernandez Selena Sarai **361762**
Trejo Rosas Shantieel **1277884**
En este taller se utilizarán los resultados del Ejercicio: Ensamble de genomas por métodos *De Novo* y Referencia 2023-1 https://hackmd.io/aL7ELbFpSVy8e3nYDJZqEQ
## Entregables:
### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes.
## Datos para comenzar a trabajar:
- Genoma obtenido del ensamble *de novo* en formato fasta.
- Directorio donde se encuentran los archivos obtenidos del resultado del ensamble por referencia.
El software y las instrucciones de instalación para trabajar en el taller se encuentran en el siguiente link: https://hackmd.io/wvqj9oDkRfGstr715NboNg
## Anotación de genoma
- Activar el ambiente prokka
- Desde la terminal, moverse al directorio donde se encuentran los resultados del ensamble por referencia, utilizar el archivo del genoma ensamblado *de novo* en formato fasta, el cual se utilizó como genoma de referencia.
- Correr en la terminal el comando de anotación (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario):
### *`prokka --kingdom Viruses --outdir Directorio_de_resultados genoma_de_novo.fasta`*
Los resultados obtenidos de la anotación se muestra en la siguiente imagen:

Desactivar el ambiente prokka con el comando:
### *`conda deactivate`*

**Revisar cada uno de los archivo generados por la anotación.**

Abrir el visualizador UGENE y cargar el archvio con terminación .gbk que se generó en el proceso de anotación del genoma.

- Cuántos genes se anotarón? **9**
- Cuál es la longitud y ubicación de cada gen en el genoma? **En las imágenes se pueden observar estos datos**
- Cuál es la función de cada gen? Replicase polyprotein 1a, Replicase polyprotein 1ab, Spike glycoprotein, Protein 3a, Membrane protein, dos Hypothetical protein, Protein 7a y Nucleoprotein.



/

/



## Llamado de variantes (Variant calling)
- Activar el ambiente var
- Desde la terminal moverse al directorio donde se encuentran los resultados del ensamble por referencia.
1.- Indexar el genoma de referencia
### *`samtools faidx genoma.fasta`*
2.- Indexar el archivo del ensamble .bam sorted
### *`bamtools index -in ensamble.sorted.bam`*
3.- Crear un directorio con el nombre variantes
4.- Utilizando el programa freebayes, correr el siguiente comando (Debes de tomar en cuenta que los nombres y direcciones de los archivos son diferentes para cada usuario):
### *`freebayes -f genoma_referencia.fasta ensamble.sorted.bam > variantes/covid19.freebayes.vcf`*

5.- Revisar en la terminal el archivo generado con los siguientes comandos (cada uno por separado)
### *`cat variantes/covid19.freebayes.vcf | head`*
### *`cat variantes/covid19.freebayes.vcf | grep -v '##' | head -4`*
6.- Comprimir el archivo covid19.freebayes.vcf
### *`bgzip variantes/covid19.freebayes.vcf`*
7.- Correr los siguientes comandos en el orden que se muestra y cada uno por separado.
### *`tabix -p vcf variantes/covid19.freebayes.vcf.gz`*
### *`rtg vcfstats variantes/covid19.freebayes.vcf.gz`*
Al terminar de correr el segundo comando, en la terminal se debe desplegar lo que se muestra en la imagen:


**Analiza e interpreta resultados.**
8.- Con bcftools generar un archivo con los estadísticos.
### *`bcftools stats -F genome.fa -s - variantes/covid19.freebayes.vcf.gz > variantes/covid19.freebayes.vcf.gz.stats`*
Analizar el archivo generado.
9.- Eliminar con rtg las variantes que tengan un valor de validad infeior a 30.
### *`rtg vcffilter -q 30 -i variantes/covid19.freebayes.vcf.gz -o variantes/covid19.freebayes.q30.vcf.gz`*
### *`zcat variantes/covid19.freebayes.vcf.gz | vcffilter -f "QUAL >= 30" | gzip > variantes/covid19.freebayes.q30.vcf.gz`*
### *`rtg vcfstats variantes/covid19.freebayes.q30.vcf.gz`*
Al terminar de correr los tres comandos, en la terminal se despliega lo que muestra la siguiente imagen:


**Analiza e interpreta los resultados.**
10.- Correr los siguientes comandos en el orden que aparecen y por separado.
### *`zcat variantes/covid19.freebayes.vcf.gz | vcffilter -f "QUAL > 1 & QUAL / AO > 10 & SAF > 0 & SAR > 0 & RPR > 1 & RPL > 1" | bgzip > variantes/covid19.freebayes.filtered.vcf.gz`*
### *`tabix -p vcf variantes/covid19.freebayes.filtered.vcf.gz`*

## Análisis de resultados con el software IGV.
1.- En la terminal correr `igv` para abrir el programa con interface gráfica como se muestra en la imagen:

2.- En el menu de IGV que se encuentra en la parte supeior, dar click en **genomes** y cargar el genoma de referencia.
3.- Descomprimir desde la terminal el archivo covid19.freebayes.filtered.vcf.gz que se encuentra en el directorio variantes.
### `gzip -dk covid19.freebayes.filtered.vcf.gz```
4.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo **covid19.freebayes.filtered.vcf** ya descompreso.
5.- En el menu de IGV que se encuentra en la parte supeior, dar click en **file** y **load from file** para cargar el archivo con terminación .gff que se encuentra en el directorio de los resultados de anotación con prokka.
Al cargar los archivos se debe observar lo siguiente:

Dar zoom y analizar los resultados.

## Entregables:
### - Capturas de pantalla de lo desplegado en la terminal al correr cada comando.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos de la anotación.
### - Reporte, análisis, discusión e interpretación de los resultados obtenidos del llamado de variantes.
# El reporte de resultados, análisis, discusión e interpretación, de la **ANOTACIÓN** serán expuestos en la clase.
**Replicase Polyprotein 1a**
El COVID-19 es causado por el virus SARS-CoV-2, que pertenece a la familia de los coronavirus. La replicasa polyprotein1a es una enzima codificada por el genoma del virus que es esencial para la replicación viral.
Se sabe que los errores en los genes que codifican la replicasa polyprotein1a pueden llevar a cambios en la estructura de la proteína y, por lo tanto, a la alteración de su función. Estos errores pueden ser el resultado de mutaciones aleatorias que ocurren durante la replicación viral.
Se cree que algunos de estos errores pueden contribuir a la capacidad del virus para infectar y replicarse dentro de las células humanas, lo que puede llevar a una mayor virulencia y propagación del virus.
Además, se ha sugerido que ciertas mutaciones en la replicasa polyprotein1a pueden contribuir a la capacidad del virus para evadir el sistema inmunológico humano, lo que puede complicar la respuesta del cuerpo a la infección por COVID-19.
En resumen, los errores en los genes de la replicasa polyprotein1a pueden tener implicaciones importantes para la patogenicidad y la capacidad del virus para evadir el sistema inmunológico, lo que puede contribuir a la gravedad de la enfermedad COVID-19 asi mismo esto puede ocurrir con otros virus ,no solamente con en COVID-19 como lo podemos observar en el al articulo con el VHC.
**Replycase polyprotein 1ab**
El artículo "Variantes genéticas del SARS-CoV-2 y sus implicaciones clínicas" menciona que la proteína replicasa 1ab es una enzima importante en la replicación viral del SARS-CoV-2. Además, se menciona que se han identificado varias mutaciones en el gen de la proteína replicasa 1ab del virus, algunas de las cuales pueden afectar la transmisibilidad del virus, la gravedad de la enfermedad y la eficacia de las terapias antivirales.
En particular, se menciona que la mutación D614G en la proteína de espiga del SARS-CoV-2, que se encuentra cerca de la proteína replicasa 1ab, se ha relacionado con una mayor transmisibilidad del virus. Además, algunas mutaciones en el gen de la proteína replicasa 1ab pueden afectar la eficacia de las terapias antivirales que se dirigen a esta enzima.
En general, el artículo destaca la importancia de entender el papel de las mutaciones en la proteína replicasa 1ab y su impacto en la propagación y la gravedad del COVID-19.
Los SNP en el gen de la proteína replicasa 1ab del virus SARS-CoV-2 podrían afectar la función de la enzima y, por lo tanto, la replicación del virus y la propagación de la enfermedad.
Aunque aún se necesitan más investigaciones, algunos estudios han identificado SNPs en el gen de la proteína replicasa 1ab del SARS-CoV-2 que se han asociado con cambios en la virulencia y la patogenicidad del virus. Por ejemplo, un estudio sugiere que una variante del SNP en el gen de la proteína replicasa 1ab puede estar relacionada con una mayor gravedad del COVID-19.
Sin embargo, es importante tener en cuenta que los SNP en el gen de la proteína replicasa 1ab del SARS-CoV-2 no son la única causa de las variaciones en la gravedad y la propagación del COVID-19. La interacción entre el virus y el huésped también desempeña un papel importante en la evolución y la patogénesis del COVID-19.
**SPIKE GLYCOPROTEIN**
La proteína S permite al virus penetrar en las células, la proteína E es clave para infectar a otras células y la proteína N les permite camuflar el material genético.
Papel de la proteína Spike de la COVID en la infección y desarrollo de la enfermedad.
Es una enzima importante en la penetración e ingreso al huésped.
No solo es importante por la adherencia a las células sanas, sino que también desempeñan el papel de dañar y afectar el sistema vascular a nivel celular actualmente.
Se infiere que en la modificación posible de esta proteína de espiga, la parte negativa sería que conserva los residuos necesarios para el reconocimientos de receptores con capacidades zoonóticas, las variantes cada vez más a especies a corta distancia de los humanos ya que varía conforme al huésped en el que se encuentran.
Puede adquirir nuevas interacciones, que le confieran el adherirse con diferente afinidad a receptores, permitiéndole estar presente en otras especies, menciona el artículo que también podría existir la posibilidad que se transfieran a los humanos causando enfermedades infecciosas cada vez más graves.
En un caso favorable para nosotros de alguna modificación, no podría anclarse al huésped sin producir efectos ya que no se está replicando el ADN viral.
**HYPOTHETICAL PROTEIN**
Son reconocidas en la secuenciación del genoma pero se le nombran huérfanas o hipotéticas ya que no se les relaciona a alguna función específica in vivo para el mecanismo, en este caso del virus
Debido a que no se reconoce la función específica no podríamos intuir o proponer lo que sucedería al haber una modificación en ese sitio, ya que principalmente se tendría que llevar a cabo un reconocimiento con evidencias reales de cómo la proteína en específico ayuda en el metabolismo o mecanismo del mismo virus.
Lo único que podemos identificar en este ejercicio es la presencia de 186 bp de hypothetical proteins.
**Protein 3a**
Es importante para el SARS-CoV-2 ya que:
Ayuda en la formación de la envoltura viral.
Regula el transporte intracelular del virus
Interactúa con otras proteínas del virus.
Y los SNP afectarían en:
Que anule o haga más resisente la formación de la envoltura viral, cambie su estructura y no sea detectable para los anticuerpos.
Acelerar o inhibir el transporte viral en el huésped.
Puede afectar en la replicación del virus, transporte de los componentes del virus o forma.
**NUCLEOPROTEIN**
El genoma del virus de la rabia consta de una cadena de ARN monocatenario y se divide en cinco genes, uno de los cuales codifica para la nucleoproteína (N).
La nucleoproteína es una proteína estructural importante del virus de la rabia que desempeña un papel esencial en la replicación y transcripción del ARN viral.
El estudio investigó el polimorfismo genético en el gen de la nucleoproteína del virus de la rabia en diferentes aislados del virus.
Los resultados sugieren que el gen de la nucleoproteína del virus de la rabia es altamente polimórfico, lo que puede afectar la virulencia y la patogenicidad del virus.
Los autores sugieren que el análisis del polimorfismo genético en el gen de la nucleoproteína del virus de la rabia podría ser útil para la epidemiología molecular del virus y para el desarrollo de vacunas y tratamientos efectivos contra la rabia.
Es importante para el SARS-CoV-2 ya que:
Une y protege el ARN del virus.
Ayuda en la formación de la ribonucleoproteina que empaqueta y transporta el virus a otras células.
Pruebas para detección de anticuerpos
Y los SNP afectarían en:
Errores, mutaciones en material genético y posterior muerte del virus ó conlleva a variantes.
No habría forma de propagación del virus.
Los anticuerpos detectan a la nucleoproteína, sin embargo un polimorfismo podría afectar la función de los anticuerpos y volverse resistente aún después de vacunación