# Atividade Prática II – Filogenia dos Genes "16S rRNA" e "rpoB" ###### tags: `Misc` **Tutorial original:** [link](https://hackmd.io/@dgpinheiro/bioinfo2021-aval2) [TOC] ## 1. Instalação dos Programas e preparação do ambiente - Pacote com todos os programas (Caso baixe esse, não será necessário fazer o download de cada programa individualmente): [link](https://drive.google.com/file/d/1vKSgokrumlsylRcD9Q4MnDw2YMAdcXqb/view?usp=sharing) ### 1.1. Instalação do JAVA - Faça o download do JAVA em sua versão "Windows Off-line (64 bits)": [link](https://www.java.com/pt-BR/download/manual.jsp) - Faça a instalação de forma simples, abrindo o arquivo e clicando em "Instalar"; ### 1.2. Instalação do UGENE - Faça o download do UGENE na página: [link](https://github.com/ugeneunipro/ugene/releases/download/43.0/ugene-43.0-win-x86-64.exe) - Faça a instalação de forma simples, sempre clicando em *"next", "agree", "install",* etc. ### 1.3. Instalação do "jmodeltest", "BEAST" e "FigTree" - Baixe os programas nos links: - jmodeltest: [link](https://github.com/ddarriba/jmodeltest2/releases/download/v2.1.9r20160115/jmodeltest-2.1.9-win32.zip) - BEAST: [link](https://www.beast2.org/download-windows/) - BEAGLE (complemento do BEAST): [link](https://github.com/beagle-dev/beagle-lib/releases/download/v3.1.0/BEAGLE.v3.1.0.msi) - FigTree: [link](https://github.com/rambaut/figtree/releases/download/v1.4.4/FigTree.v1.4.4.zip) - Com exceção do "BEAGLE" (o qual deve ser instalado normalmente), os outros devem ser apenas extraídos por meio de um programa como "winzip" ou "winrar". ### 1.4. Crie os subdiretórios - Na pasta de trabalho, crie duas subpastas chamadas **"seqs"** e **"aligns"** para armazenar as sequências e alinhamentos, respectivamente. ## 2. Obter seq. dos genes "16S rRNA" e "rpoB" - No total serão necessários 5 genomas: 4 de bactérias de um determinado gênero e 1 pertencente à um grupo externo (Ex. mesma classe ou ordem, mas família diferente). - Para escolher o gênero e o grupo externo utilize o site do **NCBI Taxonomy** ([link](https://www.ncbi.nlm.nih.gov/taxonomy)); - Procure por um gênero e então um grupo externo do mesmo filo, classe ou ordem... - Uma vez escolhido os gêneros, procure pelos genomas em: https://www.ncbi.nlm.nih.gov/data-hub/genome/ - Afim de selecionar apenas genomas completos e recentes, altere os filtros de completude e data: - *Ex.: Apenas genomas completos, depositados entre 2018 e 2022* ![](https://i.imgur.com/u4dAsrX.png) - Abra o programa **UGENE** - Copie o ID RefSeq do Genoma - ![](https://i.imgur.com/FJjwkqy.png) - No **UGENE**, vá em "File" > "Search NCBI GenBank..." - Na nova janela, cole o ID RefSeq do genoma de interesse; - Dê um "Search" e, então, baixe o genoma selecionando-o e clicando em "Download" (PS: no caso de mais de um resultado, opte pelo cromossomo). Dê "Ok" sem alterar nada, e aguarde o download. - Após baixado o genoma, clique na ferramenta de PCR *in silico*: - ![](https://i.imgur.com/W4TVuYb.png) - Repita o processo a seguir (**obtenção de sequências**) para os seguintes pares de primer: - Primers para o gene *16S rRNA*. Tamanho de frag. esperado ~1445 bp: | ID | Sequência 5'-3' | | -------- | -------------------- | | 27F | AGAGTTTGATYMTGGCTCAG | | 1492R | TACCTTGTTACGACTT | - Primers para o gene *rpoB*. Tamanho de frag. esperado ~434 bp: | ID | Sequência 5'-3' | | ---------------- | ------------------------- | | Univ_rpoB_F_deg | GGYTWYGAAGTNCGHGACGTDCA | | Univ_rpoB_R_deg | TGACGYTGCATGTTBGMRCCCATMA | - **Obtenção das sequências** - Insira os pares de primers de cada marcador, alterando os parametros de "Mismatches" para 2 bp e o "3' perfect match" para 0 bp; - ![](https://i.imgur.com/KvKUP81.png) - Clique em "Find product(s) anyway" - Dê um clique em um dos resultados (o marcador 16S pode ter mais de uma cópia. **LEIA O AVISO ABAIXO**). Note que um trecho do DNA foi selecionado. :::info - **Para o *gene 16S* note que poderá haver mais de um resultado. Nesse caso, selecione aquele cuja a fita 5'-3' (de cima) esteja em destaque.** - **Caso haja mistura de fitas 5'-3' e 3'-5' dos diferentes genomas, haverá problemas no alinhamento!** - **Resultado no sentido 3' - 5' :-1:** ![](https://i.imgur.com/gteSSpF.png) - **Resultado no sentido 5' - 3' :+1:** ![](https://i.imgur.com/EIdIUP6.png) - Em caso de NÃO haver um resultado no sentido correto (5'-3'), selecione o resultado do sentido oposto, e então pressione as teclas **`ctrl` + `shift` + `R`**. Isso irá substituir a sequência selecionada pelo reverso-complementar e funcionará da mesma forma. ::: - Com o resultado selecionado, clique em "Actions" > "Export" > "Export Selected Sequence Region". Na nova janela, indique o caminho para salvar na pasta "seqs". Salve com o padrão "Nomeespécie_marcador". *Ex.: Sphingomonas aerolata -> S_aerolata_16S.fa* - Retire a seleção de "Add document to the project"; - Selecione a opção "Use custom sequence name" e altere o nome no mesmo padrão do nome do arquivos, **EXCETO QUE AQUI NÃO DEVE INCLUIR O MARCADOR (Ex. _16S ou _rpoB) JÁ QUE O MESMO DEVE SER COMPATÍVEL ENTRE AMBOS PARA POSSIBILITAR ANÁLISES FUTURAS**. Então, clique em "Export". ![](https://i.imgur.com/lzGaAQn.png) - Repita o mesmo para o próximo par de primers e então vá para o próximo genoma (repita a extração dos marcadores para os 5). ## 3. Alinhamento múltiplo de sequências :::info **Repetir para cada conjunto de marcadores (todos de "16S rRNA" ou "rpoB")** ::: - Abra o programa **UGENE** - Clique em "File" > "Open..." e selecione todos os arquivos de um marcador (PS: pressione `ctrl` para selecionar múltiplos); ![](https://i.imgur.com/YubDYUC.png) - Na nova janela, selecione a opção "Join sequences into alignment" e desabilite a opção de salvar documento ("Save document"). ![](https://i.imgur.com/QqVCpAV.png) - Realize o alinhamento, clicando em: "Actions" > "Align" > "Align with ClustalW..." > "Align" - Por fim, salve o alinhamento no formato `fasta`, clicando com o lado direito do mouse sobre o objeto da sequência > "Export/Import" > "Export alignment to sequence format..." - ![](https://i.imgur.com/9MhmMjN.png) - Altere o nome de modo a informar o marcador e designar o local de saída para a pasta "align"; - Remova a seleção de "Add document to the project" - Certifique-se de que a opção de manter os gaps esteja selecionada ("Keep") e, então, clique em "Export". ![](https://i.imgur.com/zm3yebW.png) - Repita para o próximo conjunto de marcadores ## 4. Obtenção do modelo evolutivo ::: warning **CORREÇÃO (28/07/2022) - Problema com o "jModelTest"** - Aparentemente, o programa "jModelTest" apresenta incompatibilidade com certos nomes de sequências. O problema parece estar relacionado com o tamanho do nome da primeira sequência do arquivo de alinhamento (ainda não temos 100% de certeza quanto a isso). - Para corrigir o problema, será necessário alterar os nomes das sequências presentes nos arquivos de alinhamentos de cada gene. - Inicie a correção, criando uma cópia do arquivo de cada alinhamento (**Essa cópia servirá somente para a execução do jModelTest, as outras análises serão feitas com o arquivo original do alinhamento**): ![](https://i.imgur.com/25D3Dbl.png =x120) - Edite a cópia, clicando com o lado direito do mouse, então em "Abrir com" > "Bloco de notas" (se não aparecer de cara, clique em "Mais aplicativos") ![](https://i.imgur.com/6goZ7lg.png =x250) - No arquivo, troque o **nome** de cada sequência por um número (de 1 a 5). Ex.: Se a primeira seq. chamar ***">Dberigensis"***, troque para ***">1"*** e assim por diante. Não se preocupe em guardar os nomes, pois esse arquivo de cópia só será utilizado para estabelecer o modelo que será usado posteriormente. ![](https://i.imgur.com/L2SuMxS.png) - Salve o arquivo, repita para o alinhamento do próximo gene e utilize esses arquivos-cópia de alinhamento para a análise com o "jModelTest" ::: :::info **Repetir para cada conjunto de marcadores (todos de "16S rRNA" ou "rpoB")** ::: - Abra o arquivo "jModelTest.jar" que se encontra no interior da pasta extraída do "jmodeltest". - Abra o arquivo de alinhamento, clicando em "File" > "Load DNA alignment". Navegue até a pasta, se nada aparecer, altere a opção "Files of type" para "All Files" e selecione um dos alinhamentos. :::danger **EM CASO DE ERRO, LEMBRE-SE DE LER O QUADRO AMARELO NO ÍNICIO DESSE TÓPICO PARA CORRIGIR O PROBLEMA E SELECIONE A CÓPIA CORRIGIDA DOS ALINHAMENTOS PARA ESSA ÁNALISE!!** ::: ![](https://i.imgur.com/fp4zkOZ.png) - Faça a análise clicando em "Analysis" > "Compute likelihood scores". Na janela nova, troque o "Base tree search" para "Best". Então, clique em "Compute Likelihods" e aguarde. ![](https://i.imgur.com/YWi8hvV.png) - Adicionalmente, faça as análises para o modelo BIC ("Analysis" > "Do BIC calculations..." aceitando as configurações prédefinidas) e AICc ("Analysis" > "Do AIC calculations..." selecionando a opção "Use AICc correction") ![](https://i.imgur.com/3EeHMns.png) ![](https://i.imgur.com/bvINUPz.png) - Por fim, clique "Edit" > "Save console" e altere o final de ".console" para ".txt". Salve ![](https://i.imgur.com/O5JvMip.png) - Feche o jModelTest e abra novamente. Repita para o próximo conjunto de marcadores ## 5. Análise filogenética ### 5.1. Preparação do BEAST - Na pasta extraída do "BEAST", abra o executável "BEAUti.exe" - Clique em "File" > "Template" > "StarBeast" - Clique no simbolo de "+" (Canto inferior esquerdo) e selecione um dos alinhamentos (*caso tenha utilizado a cópia com o nome de seq. alterado no jModelTest, aqui deverá ser usado o arquivo de alinhamento original, ou seja, aquele com os nomes corretos - que representam os organismos das seqs.*). Na janela aberta, altere de "aminoacid" para "nucleotide". Repita o mesmo para o próximo alinhamento. ![](https://i.imgur.com/57W76jV.png) - Selecione ambos segurando a tecla `shift`, então clique em "Link Clock Models". - Após isso, altere o primeiro nome sob a coluna "Clock Model" para "default". Note que automaticamente alterará a segunda linha. - Simplifique os nomes sob a coluna "Site Model" e "Tree" para apenas "16S" e "rpoB", nos respectivos alinhamentos. ![](https://i.imgur.com/8Ajbgf9.png) - Mude para a aba "Taxon sets" e altere os nomes sob a segunda coluna para o nome completo da espécie ![](https://i.imgur.com/T6madDu.png) - Na aba "Site Model". Aqui será necessário um preenchimento **específico** de acordo com o modelo estabelecido pelo "jModelTest". E isso deve ser feito para cada alinhamento (16S e rpoB). - Abra os relatórios salvos do "jModelTest"; - Navegue até o resultado do "CORRECTED AKAIKE INFORMATION CRITERION (AICc)" (pode procurar esse termo com `ctrl + f`) e observe o melhor modelo: ![](https://i.imgur.com/kJaXD6D.png) - No BEAST, confira se esse modelo é encontrado sob o menu de opções do "Subst Model". Caso não esteja, procure-o na tabela de conversão (https://justinbagley.rbind.io/2016/10/11/setting-dna-substitution-models-beast/). - Caso ainda assim não encontre o modelo, pule para o próximo na lista de modelos que se encontra logo abaixo do primeiro resultado. Ex. Meu próximo modelo válido, ou seja, presente na lista nativa ou convertida do BEAST é o *HKY* ![](https://i.imgur.com/fR8LQUB.png) - Caso seja necessário, realize outros ajustes de acordo com o tutorial original (https://hackmd.io/@dgpinheiro/bioinfo2021-aval2) - Repita o processo para o próximo marcador. - Na aba "Clock Model", mantenha as configurações ("Strict Clock" e "Clock.rate = 1.0") - Na aba "Priors", certifique-se que esteja selecionado o "Yule Model" no primeiro parâmetro - Altere o "birthRate.t:Species" para `Log Normal` - Nessa mesma opção, clique na seta antes do nome e altere o parâmetro "M" para `4` (certifique-se que o parâmetro "S" esteja com `1.25`) ![](https://i.imgur.com/7M7ZAR2.png) - Da mesma forma, na opção "popMean" altere para `Log Normal` - Nessa mesma opção, clique na seta antes do nome e altere o parâmetro "M" para `-5` e o parâmetro "S" para `1.2`) ![](https://i.imgur.com/KA3TGjx.png) - Na última aba ("MCMC"), mude o valor de "Pre Burnin" para **100** - Salve as configurações, clicando em "File" > "Save" com um nome qualquer (Ex. 16S_rpob_settings.xml) ### 5.2. Execução do BEAST - Na pasta extraída do "BEAST", abra o executável "BEAST.exe". - Em "Choose File...", selecione o arquivo de configuração obtido anteriormente e execute a análise ("Run"). Aguarde o processamento. - Na pasta das configurações serão criadas três saídas principais: Uma árvore para o gene 16S (`16S.trees`), uma para o rpoB (`rpoB.trees`) e a terceira para as espécies (`species.trees`). ![](https://i.imgur.com/Uh47Opt.png) ### 5.3. Extrair a melhor árvore - Na pasta extraída do "BEAST", abra o executável "TreeAnnotator.exe". - Aqui extrairemos a melhor árvore a partir de múltiplas possíveis árvores que se encontram nos arquivos gerados pelo BEAST - **Repetir os passos a seguir para cada umas das (3) árvores.** - Alterar o descarte inicial ("Burnin percentage") para `10`%; - Selecionar a árvore alvo em "Input Tree File" > "Choose File..." - Selecionar o caminho e nome de saída em "Output File" > "Choose File...". Coloque o nome original + "\_calibrated", "\_adjusted" ou algo semelhante para indicar que trata-se da árvore corrigida - Feche e reabra o programa, então repita o processo para a próxima árvore. ![](https://i.imgur.com/fqEyVQ7.png) ## 6. Visualização das árvores ### 6.1. Visualização no DensiTree - Na pasta extraída do "BEAST", abra o executável "DensiTree.exe". - Aqui visualizaremos as árvores não-calibradas, ou seja, o arquivo anterior ao processo do "TreeAnnotator". Dessa forma, teremos uma ideia das versões alternativas que foram estipuladas. - Clique em "File" > "Load" e selecione uma das árvores. ![](https://i.imgur.com/D0fLwUf.png) - Abra as próximas árvores. Há consenso entre os marcadores? ### 6.2. Visualização no FigTree - Primeiramente, crie um arquivo relacionando o nome das sequências com o nome da espécie, para que utilizemos o mesmo nas visualizações. - Abra um bloco de notas vazio; - Crie duas colunas (separando pela tecla `tab`), uma chamada "taxa" e outra "fullname" - Então, preencha as próximas linhas com o nome conforme encontrado nos arquivos das sequências (Ex. "D_berigensis" abaixo de "taxa" e "Devosia berigensis" abaixo de "fullname", separados por um `tab`). Salve como "nomes" ou algo do tipo ![](https://i.imgur.com/IjTg27r.png) - Na pasta extraída do "FigTree", abra o executável "FigTree.exe". - Abra uma das árvores corrigidas (saída do "TreeAnnotator"), clicando em "File" > "Open..." - Na coluna de opções ao lado esquerdo, selecione a opção "Node Labels" e expanda as configurações dessa opção, clicando na setinha antes do nome. - Altere o parâmetro "Display" para "posterior" para indicar o valor de robustez do clado. ![](https://i.imgur.com/72CATJm.png) - Importe a tabela dos nomes, produzida anteriormente, clicando em "File" > "Import Annotations..." - Vá ao menu expandido da opção "Tip Labels" e altere o parâmetro "Display" para "fullname". - Aumente um pouco o tamanho do texto no parâmetro "Font Size" ![](https://i.imgur.com/1jXv9ZE.png) - Outros parâmetros como tamanho e coloração das linhas e labels (nomes) podem ser alteradas nas diferentes opções do programa. - A árvore pode ser salva em diversos formatos ao clicar em "File" > "Export PNG/PDF/etc..." ![](https://i.imgur.com/iudFR67.png) - Repita o processo para as outras árvores e salve-as mantendo a nomenclatura a qual elas representam (16S, rpoB ou Species).