# Avaliação II
## Disciplina de Bioinformática
Curso de Ciências Biológicas
### Filogenia Molecular
**Estudo filogenético de bactérias por meio do gene 16S rRNA e rpoB**
* Gene 16S
Os rRNAs (*ribosomal RNAs*) são os componentes estruturais dos ribossomos (60%), as máquinas moleculares que catalizam a síntese proteica, durante o proceso de tradução dos mRNAs (*messenger RNAs*). Eles permitem a interação com o mRNA, recrutam os tRNAs (*transport RNAs*) e catalizam a formação das ligações peptídicas entre os aminoácidos que irão compor as proteínas.

> Fonte: Figure © 2004 by Griffiths et al. ; text © 2010 by Steven M. Carr
O ribossomo em eucariotos e procariotos possuem sub-unidades que compreendem uma ou mais moléculas de rRNA além de um número variável de proteínas. Os rRNAs e a combinação dos rRNAs e proteínas tipicamente são classificados de acordo com as suas taxas de sedimentação (S). Em procariotos, a molécula completa do ribossomo, possui valor de 70S, com a subunidade maior 50S (LSU - *Large Sub-Unit*) incluindo os rRNAs 23S e 5S, e a subunidade menor 30S (SSU - *Small Sub-Unit*) comreendendo o rRNA 16S.
* Gene *rpoB*
O gene *rpoB* codifica a subunidade β da proteína RNA polimerase (RNAP) em procariotos.

> Fonte: Adaptado de http://rnaplab.org/research/
As subunidades β e β' se ligam de modo não específico ao DNA dupla fita imediatamente após à região transcrita. Adicionalmente, essas subunidades formam um canal que permite a entrada de ribonucleotídeos ao sítio ativo de transcrição e catalisam a polimerização do RNA, o qual é removido desta região por meio de outro canal entre β e β'.

> Fonte: Adaptado da Tese de Doutorado de [Heeyoun Bunch, 2009]( https://www.researchgate.net/publication/287878458_Regions_Of_E_Coli_Rna_Polymerase_Required_For_Lambda_Q-Mediated_Antitermination_In_Binding_And_Function#fullTextFileContent).
* Marcadores moleculares
Estudos de ecologia microbiana ([Case et al., 2006](https://aem.asm.org/content/73/1/278)) têm utilizado os genes 16S, além do gene rpoB como marcadores moleculares para esse tipo de estudo de estruturação de comunidades microbianas em determinados nichos ecológicos.
---
0. Preparação
- Criar diretório para a atividade
- Criar sub-diretórios:
-- "seqs" - armazenar as sequências.
-- "aligns" - armazenar os alinhamentos.
---
**1. Recuperar as sequências dos genes "*16S rRNA*" e "*rpoB*"**
Utilizar a ferramenta [FastPCR](http://primerdigital.com/fastpcr.html) ou [FastPCR online](http://primerdigital.com/tools/pcr.html) ([Kalendar et al., 2017](http://dx.doi.org/10.1016/j.ygeno.2017.05.005)) para obter as sequências (16S e rpoB) de 5 bactérias (1 delas fará parte do grupo externo).
:::info
Para quem optar pela versão Java Web Start deve ter o [Java Runtime Environment](https://www.java.com/pt_BR/download/) e configurar o nível de segurança.
Abrir o configurador Java (procurar "Configurar Java"):

Incluir o site http://primerdigital.com em Edit Site List

... e em Manage Certificates incluir o certificado digital.
Faça o download do certificado http://primerdigital.com/j/primerdigital.cer e faça a importação ("Import") escolhendo o arquivo do certificado ("primerdigital.cer").
Depois de configurado clicar no botão Launch da página do [FastPCR online](http://primerdigital.com/tools/pcr.html)

Baixar o arquivo pcr.jnlp e pedir para executar usando Java.
:::
:::info
Ao instalar, se não estiver conseguindo abrir o programa clicando no ícone. Deve acessá-lo pelo "Command Prompt", abrindo o terminal com o comando "cmd".

Digitar o comando para trocar de diretório:
```csharp=
cd "C:\Program Files (x86)\FastPCR"
```

e estando no diretório executar:
```csharp=
fastpcr.exe
```
:::danger
O programa FastPCR é excelente, porém tem um enorme defeito, custa caro! Depois de um tempo a licença Trial irá expirar. A seguir apresento-lhes uma ferramenta ainda mais incrível para realizar uma *in silico PCR*. o [Unipro UGENE](http://ugene.net), o qual não tem custo de licença e é uma excelente alternativa para o nosso propósito.
:::
Como alternativa, temos o [Unipro UGENE](http://ugene.net), o qual precisa ser instalado.
:::warning
Caso tenha problemas na instalação devido ao Antivirus, desative-o somente durante a instalação. No meu caso, eu estava utilizando Avast e disabilitei-o durante 1 hora.
:::
Nessa ferramenta, você poderá carregar o genoma a partir do número de acesso do GenBank:
- Em "File" >>> "Search NCBI GenBank...":

- Inserir o número de acesso e buscar ("Search"):

- Depois "Download":

- Seguir as intruções para carregá-lo no projeto:

- Encontre dentre os ícones à direita um com um DNA (*in silico PCR*):

- Insira as sequências dos *primers* desejados e "Find product(s) anyway".
-- Não se preocupe caso a sequência tenha caracteres do alfabeto extendido para sequências de DNA;
-- Selecione "None" em "Extract annotations" (nós não queremos isso);
-- Não se preocupe se tiverem múltiplas sequências iguais, correspondentes às bandas desejadas, pois podem ser múltiplas cópias (o gene 16S, por exemplo, pode ter múltiplas cópias);

-- Selecione apenas uma e "Extract product(s)";
-- Troque o nome da sequência clicando com o botão direito do mouse na nova sequência gerada como produto de PCR que estará identificada do lado esquerdo, a fim de padronizar os nomes das sequências com o nome do táxon (ex.: "Apallidus").

-- Clique com o botão direito no mesmo local, com o nome modificado e lá escolha "Export/Import" e "Export corresponding sequence..."

-- Troque o nome o destino e o nome do arquivo antes de exportar.

-- Faço o mesmo para o outro par de *primers* e depois para os demais genomas.
- *Primers* para o gene 16S:
| ID | Sequência 5'-3' | Ref. |
| -------- | -------------------- | ---- |
| 27F | AGAGTTTGATYMTGGCTCAG | ([Frank et al., 2008](https://dx.doi.org/10.1128%2FAEM.02272-07)) |
| 1492R | TACCTTGTTACGACTT | ([Frank et al., 2008](https://dx.doi.org/10.1128%2FAEM.02272-07)) |
- *Primers* para o gene rpoB:
| ID | Sequência 5'-3' | Ref. |
| ---------------- | ------------------------- | ---- |
| Univ_rpoB_F_deg | GGYTWYGAAGTNCGHGACGTDCA | ([Ogier et al., 2019](https://bmcmicrobiol.biomedcentral.com/articles/10.1186/s12866-019-1546-z)) |
| Univ_rpoB_R_deg | TGACGYTGCATGTTBGMRCCCATMA | ([Ogier et al., 2019](https://bmcmicrobiol.biomedcentral.com/articles/10.1186/s12866-019-1546-z)) |
<pre>
>Univ_rpoB_F_deg
GGYTWYGAAGTNCGHGACGTDCA
>Univ_rpoB_R_deg
TGACGYTGCATGTTBGMRCCCATMA
>27F
AGAGTTTGATYMTGGCTCAG
>1492R
TACCTTGTTACGACTT
</pre>
:::info
Podem ser utilizados outros primers universais para a captura das regiões gênicas "16S rRNA" e "rpoB". Caso opte por utilizar outros *primers* você deve referenciar adequadamente.
:::

- Utilize o banco de dados NCBI Taxonomy para selecionar os genomas bacterianos e vá ao link Genomes para navegar nos genomas disponíveis;

- File >>> Open GenBank FASTA File(s);

- Coloque o número RefSeq do Genoma (ex.: NZ_CP017703.1 -
*Aeribacillus pallidus* ASM162979v1) e Clique em **OK**;

- Na aba Pre-designed primer (probe) list, cole o multifasta acima com as sequências dos *primers*;

- Clique na aba "in silico PCR" e escolha:
-- Fast searching;
-- Probe search;
-- Circular sequence;
-- Show only matching sites of primer binding that generate products;
-- Show amplicon sequence;
- Clique no símbolo de *Play* (triângulo verde) ou no menu em "Run" ou a tecla F5;
- Clicando na aba "in silico PCR result":

> Caso seja necessário, pode aumentar o número de *Mismatches* permitidos ("Mismatches allowed in 3'end, 0..5nt").
> Se tiver dúvidas quanto a identidade dos amplicons:
> - no caso das sequências próximas a 1500 bp faça [BLASTn](https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome) x Nucleotide collection (nt).
> - no caso das sequências próximas a 450 bp, faça [BLASTx](https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome) x "Non-redundant protein sequences (nr)".
> Para averiguar se o amplicon se refere ao marcador de interesse, verifique dentre os resultados a identidade das sequências. Essas identidades devem ser compatíveis com o marcador de interesse.
- Selecione a sequência desejada, os amplicons 16s possuem em torno de 1500 bp e os amplicons rpoB possuem em torno de 450 bp;
- Ctrl+C e Ctrl-V no arquivo texto que corresponderá à sequência;
- Grave a sequência no arquivo correspondente (escolha um nome adequado para o arquivo, contendo o nome do marcador (16s ou rpob) e o nome da espécie, por ex.: rpob_Apallidus.fa);

> Notar a presença do identificar fasta ">Apallidus" (utilizar também um nome sugestivo com o nome do táxon)
- Faça para todas as espécies e marcadores. É possível já extrair as sequências dos amplicons para os dois marcadores.
---
**2. Realizar o alinhamento múltiplo de sequências**
A sugestão aqui é utilizar o [BioEdit](http://www.mbio.ncsu.edu/bioedit/bioedit.html), porém pode ser utilizado [MEGA X](https://www.megasoftware.net/) ou qualquer outro programa que faça alinhamentos múltiplos de sequências (fica livre a escolha do algoritmo e software de alinhamento, na análise abaixo, utilizaremos ClustalW):
- Após a instalação, abra o [BioEdit](http://www.mbio.ncsu.edu/bioedit/bioedit.html).
- Selecione File>>>New alignment;
- Selecione File>>>Import>>>Sequence alignment file

- Selecione somente as sequências do mesmo marcador (por isso é importante o nomes dos arquivos);

- Clique em Accessory Application >>> ClustalW Multiple Alignment >>> Run;

- Salve o alinhamento no formato **FASTA** (a extensão preenchida automaticamente é .fas), novamente a recomendação é usar um nome sugestivo do marcador no diretório do projeto (ex.: 16s.fas).
> Antecipando uma questão: **É possível armazenar alinhamentos em FASTA, não é somente sequências originais?** A resposta é **sim!** é possível armazenar também alinhamentos neste formato, ele se difere pois pode conter GAPs (símbolo "-") entre bases onde pode ter ocorrido evento(s) de deleção quando a sequência é comparada com outras.
> Se já tiver o arquivo de alinhamento em outro formato, utilize alguma ferramenta para a conversão (ex.: [Centre for Integrative Bioinformatics VU](http://www.ibi.vu.nl/programs/convertalignwww/) para o formato NEXUS. Grave-o no diretório do projeto, junto com o outro arquivo de alinhamento e mantenha o mesmo nome com a extensão diferente (ex.: 16s.nexus);
- Repita os processo de alinhamento múltiplo e conversão para o outro marcador;
---
**3. Teste do modelo evolutivo**
O teste do modelo evolutivo será realizado utilizando jmodeltest2 o qual deve ser obtido e instalado. Versão para Windows [aqui](https://github.com/ddarriba/jmodeltest2/releases/download/v2.1.9r20160115/jmodeltest-2.1.9-win32.zip).
- File >>> Load DNA alignment

- Escolha o arquivo de alinhamento com o marcador;
- Sina no menu "Analysis" >>> "Compute likelihood scores"
- A seguinte tela aparecerá:

- Ajuste os parâmetros da análise e clique em "Compute Likelihood" e a análise iniciará:

- Despois siga no menu "Analysis" >>> "Do BIC Calculations"
- E então, siga no menu "Analysis" >>> "Do AICc Calculations" (Optar por usar a correção de AIC, o AICc - veja explicação abaixo)
> O AIC (*Akaike Information Criteria*) e o BIC (*Bayesian Information Criteria*) são critérios que penalizam a verossimilhança (ajuste dos parâmetros do modelo até a máxima probabilidade de obtenção dos dados observados), para que um modelo mais parcimonioso seja selecionado. O BIC favorece a escolha de modelos ainda mais parcimonisos. Quando o tamanho da amostra (n) é pequeno comparado com o número de parâmetros (K) (n/K < 40) é preferível utilizar o AICc (AIC com correção para amostras de tamanho finito) ([Posada, 2012](http://www2.ib.unicamp.br/profs/sfreis/SistematicaMolecular/Aula06SelecaoModelosSubstituicaoI/Leituras/The%20Phylogenetic%20Handbook%20-%20Chapter%2010.pdf)). Note que o tamanho da amostra é aproximado pelo número total de caracteres no alinhamento.
> Há muita [discussão](https://stats.stackexchange.com/questions/577/is-there-any-reason-to-prefer-the-aic-or-bic-over-the-other) sobre qual método seria o ideal, mas é ainda é uma decisão que exige uma compreensão avançada sobre o assunto.
> Tanto o AIC quanto o BIC aumentam conforme SQE aumenta. Além disso, ambos critérios penalizam modelos com muitas variáveis sendo que **valores menores de AIC e BIC são preferíveis**.
Como modelos com mais variáveis tendem a produzir menor SQE mas usam mais parâmetros, a melhor escolha é balancear o ajuste do modelo com a quantidade de variáveis.
> **Soma de Quadrados do Erro (SQE)** é o desvio das observações em torno da média estimada
- Clique na tela principal e use Ctrl+A (para selecionar todo o conteúdo da tela) e copiar com Ctrl+C:

- Cole o resultado (Ctrl+V) no Notepad gravando o resultado no mesmo diretório das análises e dê um nome sugestivo para o arquivo (ex.: rpob_jmodeltest2.txt). Não esqueça de salvar o conteúdo. Depois será necessário consultar esse resultado.

:::info
Também é possível utilizar a gravação de um arquivo HTML utilizando o menu "Results" >>> "Build HTML log" (no entanto nesta saída não encontramos o valor do parâmetro *kappa*);
:::
- Fazer o mesmo para o outro marcador;
---
**4. Execução da análise filogenética Bayesiana**
- Fazer o download e instalar a ferramenta [BEAST2](https://www.beast2.org/download-windows) para a execução de uma análise Bayesiana. Recomendável instalar também a biblioteca BEAGLE (https://github.com/beagle-dev/beagle-lib).
- Abrir a pasta do BEAST e executar o programa **BEAUti** para criar a configuração da análise;
- Selecionar "File" >>> "Template" >>> "StarBeast" para utilizarmos um modelo de análise mais completa, com possibilidade de alterar mais parâmetros;
- "File" >>> "Import Alignment" ou Símbolo "+" no canto inferior esquerdo;
-- Escolher o arquivo no formato FASTA com o alinhamento dos amplicons referefentes ao marcador 16s;
-- Escolher o arquivo no formato FASTA com o alinhamento dos amplicons referefentes ao marcador rpob;
> Antes de carregar os arquivos, verifique se os identificadores das sequências nos arquivos FASTA possuem como identificadores o nome dos *taxa* correspondentes. Como faremos uma análise conectando os dois marcadores para a obtenção de uma única árvore, vamos nos certificar de os nomes serem correspondentes nos dois arquivos (ex.: se tiver um identificador ">Ecoli" em rpob.fas, deve ter outro identificador ">Ecoli" também em 16s.fas).
- Clique Shift e selecione as duas partições e depois no Botão "Link Clock Models" e depois no Botão "Link Trees".

- Depois altere para um único nome "default" para as duas partições nas células correspondentes às colunas "Clock Model" e "Tree".

- Clique na aba "Taxon sets" e altere a coluna "Species/Population", nela eu coloquei o nome completo de cada espécie. No final da execução do BEAST, teremos o arquivo "species.trees" com as árvores geradas a partir dos grupos definidos nesta coluna "Species/Population", e outro arquivo "default.trees" com as árvores geradas a partir da coluna "Taxon". No nosso caso serão os mesmos, no entanto o modo StarBeast do BEAST2 permite uma análise multilocus para espécies. Poderíamos ter optado por utilizar os dados dos dois marcadores como dois locus para uma mesma espécie. Porém neste tutorial utilizamos como uma partição.

- Clicar na aba "Site Model" para incluir as configurações dos melhores modelos testados com jmodeltest2. A escolha do modelo é feita de acordo com os valores de BIC ou AIC, ambos pelo menor valor, desde que estejam implementados no BEAST, ou seja, se o modelo com o menor valor não estiver implementado no BEAST, passar para o próximo e assim por adiante. A situação ideal é quando ambos concordam. O maior valor de *negative log likelihod* (-lnL) pode ser utilizado como um critério de desempate.
:::info
Se o modelo não estiver implementado no BEAST2 (e.g. 2.4.0+) pode utilizar a [tabela de conversão](https://justinbagley.rbind.io/2016/10/11/setting-dna-substitution-models-beast/) abaixo.
:::
| *Best-fit substitution model (Base)* | *Model to select in BEAUti 2* | *Additional specifications in BEAUti 2* |
| -------- | -------- | -------- |
| JC69 | JC69 | *None* |
| TrN | TN93 | *None* |
| TrNef | TN93 | *base Frequencies set to "All Equal"* |
| K80 (K2P) | HKY | *base Frequencies set to "All Equal"* |
| F81 | GTR | *fix all rate parameters to 1.0 (uncheck the "estimate" box)* |
| HKY | HKY | *None* |
| SYM | GTR | *base Frequencies set to "All Equal"* |
| TIM | GTR | *fix CT and AG rate parameters to 1.0 (uncheck the "estimate" box)* |
| TVM | GTR | *fix the AG rate parameter to 1.0 (uncheck the "estimate" box)* |
| TVMef | GTR | *fix the AG rate parameter to 1.0 (uncheck the "estimate" box), and also set base Frequencies to "All Equal"* |
| GTR | GTR | *None* |
As configurações são específicas para cada marcador. E para isso deverá abrir o arquivo HTML salvo com jmodeltest2:

Uma opção mais completa é utilizar o resultado salvo no arquivo TXT, o qual pode ser aberto com o Notepad.
No documento HTML, os valores aparecerão desta forma:

E no documento TXT, os valores aparecerão desta forma:

> Se o modelo incluir o símbolo "**+I**" utilize "Estimate" em "Proportion Invariant" a fim de obter uma estimativa para a proporção de sítios invariáveis e indique o valor de "p-inv" correspondente ao modelo obtido no HTML ou TXT na seção "Model Optimization Results" (caso ele não seja o melhor escolhido pelo jmodeltest2). Caso não tenha deixe desmarcado e zerado.

> Neste exemplo, "p-inv" está zerado. Neste modelo a proporção de sítios invariáveis não foi considerada.
> Se o modelo incluir o símbolo "**+G**" utilize "Estimate" em "Shape" e indique o valor correspondente à coluna "shape" no resultado do jmodeltest2, respectivamente ao melhor modelo. O parâmetro (alpha) "gamma shape" define a curtose da distribuição gama que modela as variações entre sítios (caso isso tenha sido considerado no modelo avaliado).

> Para buscar o valor de **kappa** (a probabilidade *a priori* para a razão transição (ti)–transversão (tv), um parâmetro para os modelos K2P e HKY), caso o modelo inclua esse parâmetro, utilize o Ctrl+F e busque pelo modelo, por exemplo:

:::info
- Configurações gerais:
**Substitution Rate** : 1.0 e marcar "Estimate"
**Gamma Category Count** : 4 (número de categorias de distribuições gama para as variações entre sítios) - o mesmo considerado no jmodeltest2
- Observação sobre a notação do jmodeltest2:
1. O **K** é o número otimizado de parâmetros = Parâmetros de substituição + 5 tamanho de ramos + topologia
- Taxas de substituição do modelo evolutivo:
R(a) = Rate(AC)
R(b) = Rate(AG)
R\(c\) = Rate(AT)
R(d) = Rate(CG)
R(e) = Rate(CT)
R(f) = Rate(GT)
:::
:::success
**ATENÇÃO**: Faça os procedimentos de configuração para as duas partições (2 marcadores).
:::
- Na aba "Clock Model" usaremos um relógio molecular estrito, ou seja, uma taxa evolutiva constante ao longo de um tempo *t* para todos os ramos de uma filogenia.

- Na aba "Priors", selecione "Yule Model", esse é um dos modelos de especiação utilizado para obter as probabilidades *a priori* para o cálculo das probabilidades *a posteriori* na inferência Bayesiana.
- Na aba "MCMC" vamos definir os parâmetros do MCMC ("*Markov Chain Monte Carlo*");

> Em "Chain Length" (número de etapas do algoritmo MCMC), o padrão é 10000000 (Modificar para 1000000 apenas neste exercício para que o programa seja executado mais rápido, em "Store Every" o valor de 1000 e em "Pre Burnin", vamos utilizar o valor de 100;
- Salvar a configuração definida com BEAUti para a execução do BEAST. Definir um nome sugestivo (ex.: 16s_rpob.xml). Observação: não é necessário incluir a extensão no nome, ela será incorporada por padrão.

- Abrir o programa BEAST e selecionar o arquivo .xml de configuração em "BEAST XML File":

- Clicar em Run para executar a análise.
- Finalizada a análise 2 arquivos serão gerados, as árvores "default" (dos genes) e "species" (das espécies). Neste nosso caso, há apenas um gene por espécie. Vamos considerar nos próximos passos as árvores por espécie (species.trees).
- Vamos executar o programa **TreeAnnotator**, o qual faz parte do software BEAST.

- Ajuste os valores:
- "Burnin percentage" a proporção de árvores iniciais que serão removidas da amostragem. Pode selecionar neste tutorial o valor de 10%.
- "Posterior probability limit" - especifica um limite para a probabilidade *a posteriori*, ou seja, se ela for menor que este limite ela será descartada.
- "Target tree type" - critério de seleção da árvore, selecione para obter a árvore com a maior credibilidade de clados ("Maximum clade credibility tree"), ou seja, com o maior valor de probabilidade *a posteriori*.
- "Node heights" - "Common Ancestor heights" para o altura dos nós (*ages*), para cada nó na árvore ser a média de altura dos mais recentes ancestrais comuns considerando o conjunto completo de árvores no arquivo (species.trees).
- "Input Tree File" - Selecione o arquivo *species.trees*
- "Output File" - selecione o arquivo de destino que irá conter a árvore selecionada "calibrated.tree".

---
**5. Visualizar a árvore(s)**
* Executar o programa **DensiTree**
Este programa também parte do pacote BEAST e a partir dele é possível abrir o arquivo "species.tree" e visualizar todas as árvores junstas amostradas e analisar todas as suas variações.

> Não foram muitas árvores geradas, modificando os parâmetros MCMC é possível visualizar muito mais árvores.
* Executar o programa **FigTree**
O programa [FigTree](http://tree.bio.ed.ac.uk/software/figtree/) deve ser inicialmente instalado a partir [daqui](https://github.com/rambaut/figtree/releases)! Este programa será utilizado para visualizar apenas a árvore obtida com o TreeAnotator.

Selecione "Node Labels" e "Display" >>> "posterior" para exibir a probabilidade *a posteriori* dos nós, a qual indica o quão robusto é determinado clado.

No programa FigTree é possível importar atributos para os terminais, como, por exemplo, o nome científico completo da espécie. Para isso, é necessário criar um arquivo contendo os identificadores dos terminais (os mesmos usados no arquivo FASTA para as sequências) e o nome completo, em colunas separadas por TAB.
<pre>
taxa fullname
Apallidus Aeribacillus pallidus
Bsubtilis Bacillus subtilis
Bcereus Bacillus cereus
Ecoli Escherichia coli
</pre>
O arquivo pode ser criado no Notepad e importado utilizando o menu, em "File" >>> "Import Annotations...". Feito isso, para trocar os identificadores ("*Labels*") dos terminais é necessário selecionar no menu lateral "Node Labels" (ativar a caixa de opção) e na caixa de seleção "Display" selecionar "fullname" (o mesmo nome de atributo utilizado na primeira linha do arquivo de anotações). Outros atributos podem ser adicionados em colunas adicionais, por exemplo, cor da fonte, e em cada coluna um atributo diferente.
---
**6. Recuperar as sequências dos ancestrais**
- Para isso é necessário acrescentar ao arquivo XML gravado com o BEAUti o trecho abaixo. Este trecho deve ser posicionado dentro da tag run ("<run>...</run>"), imediatamente antes do fechamento da tag ("</run>"). Abra o arquivo XML com o Notepad, acrescente o trecho abaixo para o registro LOG de ancestrais considerando o marcador 16S.
```htmlmixed
<logger id="AncestralSequenceLogger" fileName="ancestral_16s.trees" logEvery="1000" mode="tree">
<log id="atreeLikelihood"
spec="beast.evolution.likelihood.AncestralSequenceLogger"
data="@16s"
siteModel="@SiteModel.s:16s"
branchRateModel="@StrictClock.c:default"
tree="@Tree.t:default"
useMAP="TRUE"
tag="seq"
/>
</logger>
```
:::danger
É necessário editar o número de categorias de distribuições gamma para 1. Caso contrário o BEAST não executará.
```htmlmixed
<siteModel id="SiteModel.s:16s" spec="SiteModel" gammaCategoryCount="1"
```
:::
- É necessário utilizar o TreeAnnotator, como anteriormente, para selecionar apenas uma única árvore, no arquivo "ancestral_16S_annotated.tree", o qual é possível abrir com o programa FigTree.
- Para recuperar a sequência do ancestral na árvore, deve a partir do programa FigTree, selecionar o nó ancestral que deseja verificar a sequência, clicar no ícone "Annotate" e depois na caixa de seleção "Annotation" deve selecionar "seq":

:::info
Depois que fizer para o marcador de 16S, deve repetir os passos anteriores para gerar também o marcador rpoB.
:::