# Avaliação I ###### tags: `Avaliação` ## Disciplina de Bioinformática Curso de Ciências Biológicas O SARS-CoV-2 é um vírus de genoma RNA sentido positivo (fita senso), esférico, envelopado [Figura 1]. ![Figura 1](https://i.imgur.com/hDZC31k.png) As proteínas estruturais mais importantes são as espículas (S1 e S2), proteína de membrana (M), proteína do envelope (E) e proteína do nucleocapsídeo (N). O genoma do CoV possui 11 genes que são conservados na seguinte ordem: <pre> 1 gene 266..21555 /gene="ORF1ab" 2 gene 21563..25384 /gene="S" 3 gene 25393..26220 /gene="ORF3a" 4 gene 26245..26472 /gene="E" 5 gene 26523..27191 /gene="M" 6 gene 27202..27387 /gene="ORF6" 7 gene 27394..27759 /gene="ORF7a" 8 gene 27756..27887 /gene="ORF7b" 9 gene 27894..28259 /gene="ORF8" 10 gene 28274..29533 /gene="N" 11 gene 29558..29674 /gene="ORF10" </pre> Dois terços do genoma correspondem ao gene ORF1ab que é responsável por codificar as duas replicases virais que são poliproteínas PP1a e PP1ab). Dezesseis proteínas não estruturais maduras (NSPs) surgem do processamento das poliproteínas. Esses NSPs participam de diferentes funções virais, incluindo a formação do complexo replicase transcriptase. A parte genômica restante do vírus codifica o mRNA que produz as proteínas estruturais [Figura 2]. ![Figura 2](https://i.imgur.com/04a7jHo.jpg) Fonte: https://www.sciencedirect.com/science/article/pii/S2211383520302999 A sequência genômica referência é de um isolado Wuhan-Hu-1 (China) 2019 NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome ### Exercício Vamos realizar uma análise comparativa do conteúdo gênico do vírus SARS-CoV-2. * A partir de um gene (\*) do SARS-CoV-2 encontrado na China em 2019, e obter 4 sequências (1 referência +3 isolados do SARS-Cov-2) desse gene em genomas de vírus de pacientes de outros países em diferentes épocas durante o período de infecção em 2020 e 2021. Neste link encontrarão sequências relacionadas aos vírus, procurem obter as sequências a partir dos genomas completos https://www.ncbi.nlm.nih.gov/genbank/sars-cov-2-seqs/. (\*) Um gene por aluno. * Incluir entre as sequências, a sequência de um gene ortólogo no alinhamento múltiplo (fará parte do grupo externo). Mais 1 a 2 sequências de genes ortólogos: 1 coronavirus Morcego e/ou 1 coronavirus Pangolin; - MT121216.1 Pangolin coronavirus isolate MP789, complete genome - NC_014470.1 Bat coronavirus BM48-31/BGR/2008, complete genome * Com as sequências obtidas, fazer um alinhamento múltiplo global, da mesma forma que fizemos em aula, o alinhamento será no espaço de aminoácidos (utilizando a tradução da sequência codificadora em nucleotídeos - CDS), porém o resultado do alinhamento será devolvido em nucleotídeos (Verificar ferramenta RevTrans https://services.healthtech.dtu.dk/service.php?RevTrans-2.0). Pode ser utilizando ClustalW2, T-Coffee ou MAFFT; * Devem exibir o resultado do alinhamento múltiplo utilizando a ferramenta MView; * https://www.ebi.ac.uk/Tools/msa/mview/ * Por fim, vocês devem fazer uma análise fenética, obtendo uma árvore pelo algoritmo "**Neighbor-joining**" representando as distâncias genéticas entre as sequências. ![](https://i.imgur.com/ja3xUhc.png) Utilize o site http://www.phylogeny.fr/one_task.cgi?task_type=bionj para realizar a análise e desenhar a árvore. Para o cálculo das distâncias, utilizaremos o **modelo de substituição Kimura 2-parâmetros** Para acessar a confiança na estimativa de topologia da árvore NJ utilizaremos uma **análise** ***bootstrap*** com **100 réplicas**. Nesta abordagem *bootstrap*, os sítios dos resíduos alinhados são reamostrados com reposição até o número total de sítios, generando pseudo-amostras que são do mesmo tamanho que o original. Cada uma das réplicas é analisada da mesma forma que o original. O valor de suporte *bootstrap* representa a proporção de árvores *bootstrap* estimadas que possuem determinado clado. <pre> 4 - Bianca Dias dos Santos 3 - Bianca Henrique Gabriel 5 - Felipe Brussolo da Silva 11 - Giovanna Carla Magallini 9 - Gleiciane Rocha Santos 2 - Guilherme de Almeida Carvalho 7 - João Victor dos Anjos Almeida 6 - Leticia Ferreira de Almeida 10 - Leticia Maria Ascencio </pre> * Vamos fazer agora um alinhamento com o genoma todo do vírus. No entanto, não utilizaremos a ferramenta RevTrans para fazer o alinhamento múltiplo global, pois essa ferramenta apenas considera que há uma única sequência codificadora (CDS/ORF) na sequência de nucleotídeos submetida para essa ferramenta (RevTrans). Vamos utilizar neste caso o Clustal diretamente em seu portal (https://www.ebi.ac.uk/Tools/msa/clustalo/), infelizmente a versão online do T-Coffee não suporta mais do que 10000 resíduos (nucleotídeos ou aminoácidos). * Caso as ferramentas online não permitam a execução pelo motivo de as sequências serem muito grandes ou excederem o número de caracteres permitido, etc., nesse caso utilizaremos a ferramenta MEGA (https://www.megasoftware.net/), a qual você pode baixar e executar no computador pessoal, sem depender da internet. Abrir o executável do programa: ![](https://i.imgur.com/LwkOPkd.png) Clicar no ícone DATA para carregar as sequências no formato FASTA: ![](https://i.imgur.com/nZbEDZJ.png) ..., depois no link **Open a File/Session...**: ![](https://i.imgur.com/AFmMBLs.png) ..., depois em **Align**: ![](https://i.imgur.com/kZMoaRd.png) ..., depois na nova janela, clique no menu em **Alignment**: ![](https://i.imgur.com/Qp8Dvsl.png) ... e então em **Align by ClustalW**: ![](https://i.imgur.com/Pd9Ydre.png) Clique em **OK** para selecionar todas as sequências: ![](https://i.imgur.com/fsbRwt4.png) Abrirá a caixa de modificação de parâmetros, se não for modificar clique em **OK**: ![](https://i.imgur.com/dCDOFN0.png) O alinhamento com ClustalW tem início: ![](https://i.imgur.com/5JOPp44.png) ... e dependendo do tamanho das sequências, pode demorar nesta tela: ![](https://i.imgur.com/BDXw1er.png) ... até terminar com o alinhamento: ![](https://i.imgur.com/g6C3Ldd.png) A partir daí, é possível exportar o alinhamento para o formato desejado (Não há muitos formatos, pode ser no *FASTA*, por exemplo) ![](https://i.imgur.com/qvcYozV.png) Depois escolha "Phylogenetic Analysis": ![](https://i.imgur.com/IfvEuQ7.png) Na outra janela, escolha "PHYLOGENY" e "Construct/Test Neighbor-Joining Tree...": ![](https://i.imgur.com/L3LGI2S.png) e então, clique em **Yes**: ![](https://i.imgur.com/NWAZkpq.png) , depois em **OK**: ![](https://i.imgur.com/Y8w3194.png) Pronto!!!: ![](https://i.imgur.com/CAvWRpO.png) A ferramenta MEGA é mais amigável, demorou bastante com o genoma completo dos vírus, a outra opção é a ferramenta BioEdit (http://www.mbio.ncsu.edu/bioedit/bioedit.html). A página parece estar fora do ar, então utilizar este link: https://bioedit.software.informer.com/download/?lang=pt#downloading . Carregue o programa: ![](https://i.imgur.com/ghgpPmJ.png) **File**, **Open** e escolha o arquivo com as sequências no formato FASTA (brutas, ou seja, ainda sem alinhamento): ![](https://i.imgur.com/YyKTWcg.png) Sequências carregadas no programa: ![](https://i.imgur.com/PjftH7Y.png) Clique em **Accessory Application** e selecione **ClustalW Multiple Alignment**: ![](https://i.imgur.com/gH6nIq4.png) Selecione os parâmetros e/ou clique em **Run ClustalW**: ![](https://i.imgur.com/mN0Z032.png) Pronto, alinhamento feito: ![](https://i.imgur.com/bEGT28C.png) Clique em **Save Alignment**: ![](https://i.imgur.com/BSZDqo0.png) Escolha o formato, por exemplo Phylip4: ![](https://i.imgur.com/LGLw8iY.png) Depois clique em **Accessory Application** e selecione **NEIGHBOR**: ![](https://i.imgur.com/qDWtVFb.png) **Run Application**: ![](https://i.imgur.com/L1g17io.png) Árvore NJ gerada: ![](https://i.imgur.com/GtiVlgC.png) Formato [Newick](https://en.wikipedia.org/wiki/Newick_format): ((US_CA_0320:0.03953,(IN_AH_0420:0.00048,CH_RaTG13:0.06772):0.00037):0.00032, (BR_SP_0420:0.00010,BR_SP_0320:-0.00000):0.00023,CH_WU_1220:-0.00003); Verifique que as janelas podem ficar ocultas, atrás de outra janela: ![](https://i.imgur.com/JAcKoYl.png) Com a árvore no Formato Newick é possível utilizar uma ferramenta online para desenhar a árvore: TreeDyn: http://www.phylogeny.fr/one_task.cgi?task_type=treedyn ![](https://i.imgur.com/QZp01x8.png) e **Submit**: ![](https://i.imgur.com/IB9ZHkk.png) Infelizmente, com a estratégia do BioEdit não temos os valores de suporte. --- Conclusão: Em todas as árvores geradas é possível observar que a sequência do coronavírus isolado de morcego (CH_RaTG13) é bem menos semelhante que as demais e que os isolados de pacientes brasileiros são mais semelhantes entre si.