
# Filogenômica: Uma abordagem prática - Aula prática para pós graduação da UFABC I
###### tags: `Filogenia` `Filogenômica` `Aula prática` `Unesp`
---
:::warning
### Antes de olhar este manual prático
* Antes de começar a usar este tutorial é fundamental que você tenha conhecimentos básicos sobre o sistema **UNIX**, para adquirir este conhecimento, você pode começar a treinar por tutoriais de comandos básicos para usar nos sistemas **UNIX**.
* Contudo, para os usuário que já estão familiarizados com o sistema **UNIX**, basta fazer o **download** dos programas assinalados na seção do tutorial [Programas que serão usados na atividade prática](https://hackmd.io/6ikGY4F2QaG6H05Ao39kzA?both#Programas-que-ser%C3%A3o-usados-na-atividade-pr%C3%A1tica) e de preferência colocar todos os programas na variável _$PATH_.
* Tenha sempre em mente que o que será abordado aqui será o *café com leite*, ou seja, será só o básico direcionado para a aula que vocês tiveram durante o curso. Todos os programas usados possuem uma gama incrível de ferramentas e opções que devem ser customizadas de acordo com os seus dados, - além de estar em constante atualização - portanto pesquise sobre os programas, **LEIA O MANUAL DE CADA FERRAMENTA** para sempre usá-las de maneira adequada.
* Os textos em caixas escritos na cor “verde” denotam comentários sobre os parâmetros usados no exemplo do tutorial.
:::
## Programas que serão usados na atividade prática:
:::info
As instruções dadas no tutorial são para sistemas **UNIX** (foram testados no Ubuntu e Lubuntu), para sistema do Windows, por favor seguir as instruções nos manuais dos programas
:::
### Obter sequências homólogas
+ [Get_Homologues](https://github.com/eead-csic-compbio/get_homologues/releases/tag/v3.2.2)
+ Para mais informações, ver publicação em: [GET_HOMOLOGUES, a versatile software package for scalable and robust microbial pangenome analysis.](https://www.ncbi.nlm.nih.gov/pubmed/24096415)
* Para efetuar a instalação:
Descompactar os arquivos dentro da pasta Software, dentro da pasta Documents:
```shell=
mkdir -p Documents/Software/
```
mover o arquivo do get_homologues para a pasta Software:
```shell=
mv <nomedoarquivo> Documents/Software/
```
Entrar na pasta Documents/Software/
```shell=
cd Documents/Software
```
```shell=
tar -xzvf [nome_do_programa]
```
Entrar na pasta que o programa foi instalado:
```shell=
cd [nome_do_programa]
```
Instalar programa (Instalar as dependências):
```shell=
perl ./install.pl
```
### Alinhamento de sequências
+ [MAFFT - versão para SO](https://mafft.cbrc.jp/alignment/software/linux.html)
+ [MAFFT - versão online](https://mafft.cbrc.jp/alignment/server/)
Para instalar o MAFFT no linux:
```shell=
sudo apt-get install mafft
```
### Inspeção visual dos alinhamentos
+ **Seaview**
[Seaview](ftp://pbil.univ-lyon1.fr/pub/mol_phylogeny/seaview/seaview.linuxPC.tgz)
Baixar e descompactar o programa
```shell=
tar -xzvf seaview.linuxPC.tgz
```
### FASconCAT
+ **Download:**
[Download ](https://github.com/PatrickKueck/FASconCAT) do script para concatenar baseado na liguagem Perl. Para este programa funcionar você deve ter o interpretador de programas Perl instalado. Funciona em todos os sistemas operacionais.

Descompactar os arquivos
```shell=
tar -xzvf [nome_do_programa]
```
Entrar na pasta que o programa foi instalado:
```shell=
cd [nome_do_programa]
```
Para verificar se está funcionando, basta inserir o comando no Terminal:
```shell=
./FASconCAT_v1.11.pl
```
Para rodar o programas, as vezes precisamos converter o código para sistema UNIX, para isso primeiro vamos instalar um programa chamado "VIM"
```shell=
sudo apt-get install vim
```
depois abrir o programa "FASconCAT_v1.11.pl" no programa vim:
```shell=
vim FASconCAT_v1.11.pl
```
Digitar no teclado:
```
:set fileformat=unix
:x
```
testar novamente o programa
```shell=
./FASconCAT_v1.11.pl
```
Copiar para a variável $PATH
```shell=
cp FASconCAT_v1.11.pl /bin/
```
### IQ-Tree
+ **Download:**
[Download ](http://www.iqtree.org/#download)de versões do IQ-Tree para Macintosh, Windows ou Linux.
Descompactar os arquivos
```shell=
tar -xzvf [nome_do_programa]
```
Entrar na pasta que o programa foi instalado:
```shell=
cd [nome_do_programa]/bin/
```
Para verificar se está funcionando, basta inserir o comando no Terminal:
```shell=
./iqtree
```
Copiar para a variável $PATH
```shell=
cp iqtree /bin/
```
+ **Input Format:**
Os alinhamentos devem estar nos formatos Fasta, Phylip ou NEXUS.
### Visualizacao das arvores: FigTree
+ **Download:**
```shell=
sudo apt-get install figtree
```
+ **Input Format:**
As árvores estar nos formatos Newick ou NEXUS.
#### Criar hierarquia de arquivos:
Para isso devemos entrar no Terminal:

E dentro da pasta que deseja fazer a análise, que no caso deste exemplo será **Documents**, portanto (_cd_ = change directory):
```shell=
cd Documents
```
e para criar os arquivos (_mkdir_ = make directory) deverá digitar os seguintes comandos:
```shell=
mkdir -p Scripts/
mkdir -p Phylogenomics/
mkdir -p Phylogenomics/Alignment/
mkdir -p Phylogenomics/Seqs_Renamed/
mkdir -p Phylogenomics/Concat_200/
mkdir -p Phylogenomics/IQ-Tree/
cd Phylogenomics/
tree
```
:::success
> [name=Nota sobre comandos]
> **Comandos shell**
>
> mkdir -> criar pastas (_make directory_)
> mkdir -p -> criar pastas dentro de pastas caso não existirem
> cd -> mudar de diretório (change directory)
> tree -> verificar a hierarquia de arquivos no computador na forma de "árvore" de arquivos.
:::
## Sequências que serão usadas na prática:
Para realizar esta prática, escolhemos usar 10 genomas de bactérias, sendo 9 do gênero _Xanthomonas_ e 1 do gênero _Xylella_ que será usado como grupo externo:
:::warning
| N. Acesso | Nome da espécie |
| -------- | -------- |
| NC_007086.1 | _Xanthomonas campestris_ pv. _campestres_|
| NZ_CP009037.1 | _X. citri_ subsp. _citri_ |
| NC_016010.1 | _X. axonopodis_ pv. _citrumelo_ |
| NC_007508.1 | _X. campestris_ pv. _euvesicatorica_ |
| NC_022541.1 | _X. funscans_ subsp. _fuscans_ |
| NZ_CM002264.1 | _X. axonopodis_ pv. _glycines_ |
| NZ_CP012947.1 | _X. oryzae_ pv. _oryzae_ |
| CP002789 | _X. campestris_ pv. _raphani_ |
| NC_013722.1 | _X. albilineans_ |
| NC_004556.1 | Grupo externo: _Xylella fastidiosa_ |
:::
### Arquivos .gbk do GenBank
Fazer download de sequências do Genbank (fazer download na versão "FULL")
Para este tutorial, fazer download dos genomas, basta fazer download dos arquivos na pasta do Google Drive no link: bit.ly/phyloGBSeqs
E descompactar o arquivo, para isso, devemos digitar o comando:
```shell=
unzip [nome do arquivo.zip]
```
mover a pasta **GB** para a pasta **Phylogenomics**
```shell=
mv GB/ ../Documents/Phylogenomics/
```
## Fazer download dos scripts
Assim, primeiramente, devemos fazer o download da pasta [Scripts](https://drive.google.com/drive/folders/1DPAK2f9msyS3vlIBiVieDdBcKaVeXEGz?usp=sharing) na pasta do Google Drive no botão **"Fazer Download de tudo"**:

### Renomear as sequências
copiar o script _rename_seqs.sh_ Scripts para a pasta **Documents/Phylogenomics/Xan_compareclust**.
Para isso, podemos usar as próprias janelas do Linux (como fazemos no Windows:copiar os arquivos e colar na pasta).
Ou podemos usar o Terminal com o comando:
```shell=
cp ~/Downloads/Scripts/rename_seqs.sh /Documents/Phylogenomics/Xan_compareclust/
```
Entrar na pasta com o comando:
```shell=
cd ~/Documents/Phylogenomics/Xan_compareclust/
```
E tornar o script executável com o comando
```shell=
chmod a+x rename_seqs.sh
```
executar o script **rename_seqs.sh** dentro da pasta **Xan_compareclust/**
```shell=
./rename_seqs.sh
```
:::success
>[name=Nota sobre comandos]
>
>**Comandos do Shell**
>cp -> copiar um arquivo
>cd -> mudar de diretório
>chmod a+x -> mudar o tipo de arquivo e tornar o arquivo executável (como se fosse o .exe do windows)
>./ -> executar o programa na pasta local
:::danger
:exclamation:O **Script** não funcionará se não estiver na mesma pasta dos arquivos a serem renomeados
:::
### Alinhar as sequências usando o programa MAFFT
copiar o script _align_seqs.sh_ da pasta Scripts para a pasta **Seqs_Renamed/**
e tornar o script executavel com o comando
```shell=
chmod a+x align_seqs.sh
```
executar o script **align_seqs.sh**
```shell=
./align_seqs.sh
```
:::success
>[name=Nota sobre comandos]
>
>**Comandos do Shell**
>chmod a+x -> mudar o tipo de arquivo e tornar o arquivo executável (como se fosse o .exe do windows)
>./ -> executar o programa na pasta local
:::danger
:exclamation:O **Script** não funcionará se não estiver na mesma pasta dos arquivos a serem alinhados
:::
### Análise filogenômica com o método de Máxima Verossimilhança com o programa IQ-Tree
Para construirmos árvores de máxima verossimilhança (_maximum likelihood_) podemos usar vários programas. Inclusive os mesmos que empregamos para poucas sequências. Contudo, há alguns algortimos que são mais otimizados que outros e o programa IQ-Tree tem algoritmo que faz análises rápidas para um conjunto grande de dados (como os dados de filogenômicas), contudo o programa usa alguns "Atalhos" para obter estas árvores mais rapidamente, como por exemplo o algortimo de branch-swapping NNI e bootstrap especial chamado Ultrabooststrap. Todos estes "Atalhos" podem influenciar ou não os resultados da análise. Portanto, caso usar este programa e seu resultado não for satisfatório, recomendamos usar outros programas de filogenia, portanto, não deixe para fazer as suas análises quando estiver perto do prazo de entrega dos seus resultados.
Para este tutorial, vamos aprender duas maneiras de usar o IQ-TREE, via [web-server da ferramenta](https://hackmd.io/6ikGY4F2QaG6H05Ao39kzA?both#Usando-o-web-server) ou via o [seu servidor](https://hackmd.io/6ikGY4F2QaG6H05Ao39kzA?both#Usando-o-seu-servidor).
### Usando o Web-Server:
Para usar o servidor online do IQ-tree, deverá entrar no link:
http://iqtree.cibiv.univie.ac.at/

Após entrar no link, carregar a matriz concatenada que foi gerada a partir do programa FASconCAT clicando no botão **Browser...**


Selecione o arquivo, e escreva seu endereço de email para que o servidor mande um email quando a análise acabar:


Submetido, a janela aparecera com os seus processos:

E enquanto estiver indicado como **Running**, significa que o processo ainda nao terminou:

Ao término a análise no servidor online, obterá o seguinte resultado e deverá selecionar a análise que submetemos no ícone [X] na coluna à esquerda do navegador:


Após isso, você deverá fazer o Download dos resultados clicando no botâo **Download Selected Results** logo abaixo do processo da análise:


E descompactar os arquivos:
png)

Sua árvore de Máxima Verossimilhança está no arquivo **FcC_smatrix.fas.treefile**

Para visualizá-la deverá abrir este arquivo em algum programa de árvores, como na seção [Visualização de árvores usando o FigTree](https://hackmd.io/6ikGY4F2QaG6H05Ao39kzA?both#Visualiza%C3%A7%C3%A3o-da-%C3%A1rvore-usando-o-FigTree)
## Visualização da árvore
Existem diversos softwares para visualização de árvores:
Download de [IQ-tree de Xanthomonas](https://drive.google.com/file/d/1YMy-O7nJNT5kfAIfmb-m6cgSJGT216yK/view?usp=sharing)
**Softwares online:**
* [Phylo.IO](http://phylo.io/)
* [Tree of Life viewer (iTOL)](https://itol.embl.de/)
* [EvolView](https://www.evolgenius.info/evolview/#mytrees/EXAMPLES/Sample%20tree%201(Simple%20tree%20example))
**Para Download:**
* [FigTree](http://tree.bio.ed.ac.uk/software/figtree/)
* [DensiTree](https://www.cs.auckland.ac.nz/~remco/DensiTree/)
* [TreeGraph](http://treegraph.bioinfweb.info/)
### Visualização da árvore usando o FigTree
Abra o programa Figtree:

e abrir o árquivo **FcC_smatrix.fas.treefile**

Editar a árvore - valores de bootstrap estão dentro de "label".