# Avaliação I
###### tags: `Avaliação`
## Disciplina de Bioinformática
Curso de Ciências Biológicas
O SARS-CoV-2 é um vírus de genoma RNA sentido positivo (fita senso), esférico, envelopado [Figura 1].

As proteínas estruturais mais importantes são as espículas (S1 e S2), proteína de membrana (M), proteína do envelope (E) e proteína do nucleocapsídeo (N). O genoma do CoV possui 11 genes que são conservados na seguinte ordem:
<pre>
1 gene 266..21555
/gene="ORF1ab"
2 gene 21563..25384
/gene="S"
3 gene 25393..26220
/gene="ORF3a"
4 gene 26245..26472
/gene="E"
5 gene 26523..27191
/gene="M"
6 gene 27202..27387
/gene="ORF6"
7 gene 27394..27759
/gene="ORF7a"
8 gene 27756..27887
/gene="ORF7b"
9 gene 27894..28259
/gene="ORF8"
10 gene 28274..29533
/gene="N"
11 gene 29558..29674
/gene="ORF10"
</pre>
Dois terços do genoma correspondem ao gene ORF1ab que é responsável por codificar as duas replicases virais que são poliproteínas PP1a e PP1ab). Dezesseis proteínas não estruturais maduras (NSPs) surgem do processamento das poliproteínas. Esses NSPs participam de diferentes funções virais, incluindo a formação do complexo replicase transcriptase. A parte genômica restante do vírus codifica o mRNA que produz as proteínas estruturais [Figura 2].

Fonte: https://www.sciencedirect.com/science/article/pii/S2211383520302999
A sequência genômica referência é de um isolado Wuhan-Hu-1 (China) 2019
NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
### Exercício
Vamos realizar uma análise comparativa do conteúdo gênico do vírus SARS-CoV-2.
* A partir de um gene (\*) do SARS-CoV-2 encontrado na China em 2019, e obter 4 sequências (1 referência +3 isolados do SARS-Cov-2) desse gene em genomas de vírus de pacientes de outros países em diferentes épocas durante o período de infecção em 2020 e 2021. Neste link encontrarão sequências relacionadas aos vírus, procurem obter as sequências a partir dos genomas completos https://www.ncbi.nlm.nih.gov/genbank/sars-cov-2-seqs/.
(\*) Um gene por aluno.
* Incluir entre as sequências, a sequência de um gene ortólogo no alinhamento múltiplo (fará parte do grupo externo). Mais 1 a 2 sequências de genes ortólogos: 1 coronavirus Morcego e/ou 1 coronavirus Pangolin;
- MT121216.1 Pangolin coronavirus isolate MP789, complete genome
- NC_014470.1 Bat coronavirus BM48-31/BGR/2008, complete genome
* Com as sequências obtidas, fazer um alinhamento múltiplo global, da mesma forma que fizemos em aula, o alinhamento será no espaço de aminoácidos (utilizando a tradução da sequência codificadora em nucleotídeos - CDS), porém o resultado do alinhamento será devolvido em nucleotídeos (Verificar ferramenta RevTrans https://services.healthtech.dtu.dk/service.php?RevTrans-2.0). Pode ser utilizando ClustalW2, T-Coffee ou MAFFT;
* Devem exibir o resultado do alinhamento múltiplo utilizando a ferramenta MView;
* https://www.ebi.ac.uk/Tools/msa/mview/
* Por fim, vocês devem fazer uma análise fenética, obtendo uma árvore pelo algoritmo "**Neighbor-joining**" representando as distâncias genéticas entre as sequências.

Utilize o site http://www.phylogeny.fr/one_task.cgi?task_type=bionj para realizar a análise e desenhar a árvore.
Para o cálculo das distâncias, utilizaremos o **modelo de substituição Kimura 2-parâmetros**
Para acessar a confiança na estimativa de topologia da árvore NJ utilizaremos uma **análise** ***bootstrap*** com **100 réplicas**.
Nesta abordagem *bootstrap*, os sítios dos resíduos alinhados são reamostrados com reposição até o número total de sítios, generando pseudo-amostras que são do mesmo tamanho que o original. Cada uma das réplicas é analisada da mesma forma que o original. O valor de suporte *bootstrap* representa a proporção de árvores *bootstrap* estimadas que possuem determinado clado.
<pre>
4 - Bianca Dias dos Santos
3 - Bianca Henrique Gabriel
5 - Felipe Brussolo da Silva
11 - Giovanna Carla Magallini
9 - Gleiciane Rocha Santos
2 - Guilherme de Almeida Carvalho
7 - João Victor dos Anjos Almeida
6 - Leticia Ferreira de Almeida
10 - Leticia Maria Ascencio
</pre>
* Vamos fazer agora um alinhamento com o genoma todo do vírus. No entanto, não utilizaremos a ferramenta RevTrans para fazer o alinhamento múltiplo global, pois essa ferramenta apenas considera que há uma única sequência codificadora (CDS/ORF) na sequência de nucleotídeos submetida para essa ferramenta (RevTrans). Vamos utilizar neste caso o Clustal diretamente em seu portal (https://www.ebi.ac.uk/Tools/msa/clustalo/), infelizmente a versão online do T-Coffee não suporta mais do que 10000 resíduos (nucleotídeos ou aminoácidos).
* Caso as ferramentas online não permitam a execução pelo motivo de as sequências serem muito grandes ou excederem o número de caracteres permitido, etc., nesse caso utilizaremos a ferramenta MEGA (https://www.megasoftware.net/), a qual você pode baixar e executar no computador pessoal, sem depender da internet.
Abrir o executável do programa:

Clicar no ícone DATA para carregar as sequências no formato FASTA:

..., depois no link **Open a File/Session...**:

..., depois em **Align**:

..., depois na nova janela, clique no menu em **Alignment**:

... e então em **Align by ClustalW**:

Clique em **OK** para selecionar todas as sequências:

Abrirá a caixa de modificação de parâmetros, se não for modificar clique em **OK**:

O alinhamento com ClustalW tem início:

... e dependendo do tamanho das sequências, pode demorar nesta tela:

... até terminar com o alinhamento:

A partir daí, é possível exportar o alinhamento para o formato desejado (Não há muitos formatos, pode ser no *FASTA*, por exemplo)

Depois escolha "Phylogenetic Analysis":

Na outra janela, escolha "PHYLOGENY" e "Construct/Test Neighbor-Joining Tree...":

e então, clique em **Yes**:

, depois em **OK**:

Pronto!!!:

A ferramenta MEGA é mais amigável, demorou bastante com o genoma completo dos vírus, a outra opção é a ferramenta BioEdit (http://www.mbio.ncsu.edu/bioedit/bioedit.html). A página parece estar fora do ar, então utilizar este link: https://bioedit.software.informer.com/download/?lang=pt#downloading .
Carregue o programa:

**File**, **Open** e escolha o arquivo com as sequências no formato FASTA (brutas, ou seja, ainda sem alinhamento):

Sequências carregadas no programa:

Clique em **Accessory Application** e selecione **ClustalW Multiple Alignment**:

Selecione os parâmetros e/ou clique em **Run ClustalW**:

Pronto, alinhamento feito:

Clique em **Save Alignment**:

Escolha o formato, por exemplo Phylip4:

Depois clique em **Accessory Application** e selecione **NEIGHBOR**:

**Run Application**:

Árvore NJ gerada:

Formato [Newick](https://en.wikipedia.org/wiki/Newick_format):
((US_CA_0320:0.03953,(IN_AH_0420:0.00048,CH_RaTG13:0.06772):0.00037):0.00032,
(BR_SP_0420:0.00010,BR_SP_0320:-0.00000):0.00023,CH_WU_1220:-0.00003);
Verifique que as janelas podem ficar ocultas, atrás de outra janela:

Com a árvore no Formato Newick é possível utilizar uma ferramenta online para desenhar a árvore:
TreeDyn: http://www.phylogeny.fr/one_task.cgi?task_type=treedyn

e **Submit**:

Infelizmente, com a estratégia do BioEdit não temos os valores de suporte.
---
Conclusão: Em todas as árvores geradas é possível observar que a sequência do coronavírus isolado de morcego (CH_RaTG13) é bem menos semelhante que as demais e que os isolados de pacientes brasileiros são mais semelhantes entre si.