# Comandos usados para a IC
## Coleta dos genomas
##### Para baixar os genomas e os dados referentes a origem do isolado etc ... usei o site https://www.ncbi.nlm.nih.gov/genome/
## Verificação da qualidade do genoma
##### Para isso, foi rodado todos os genomas por meio do programa CheckM (https://github.com/Ecogenomics/CheckM), escolhendo os genomas com completude maior que 90% e contaminação menor que 10%, comando foi:
> checkm <nome da linhagem tida no checkM> --genes -t 8 -x faa <pasta com genomas> <pasta com resultados>
## Anotando os genomas
#### Com os genomas que passaram pelo filtro dos resultados obtidos pelo checkM, utilizamos o prokka (https://github.com/tseemann/prokka) para realizar a anotação desses para posteriormente realizar a montagem do pangenoma
> /opt/Software/prokka/bin/prokka --addgenes --addmrna --kingdom <reino> --cpus 12 --prefix <nome que deseja inserir> --locustag <nome que deseja inserir> --outdir <nome que deseja inserir> --genus <gênero> --species <epíteto específico> --strain <nome da cepa> --compliant <caminho do genoma>
## Análise de pangenoma
#### O pangenoma foi determinado pelo Panaroo (https://github.com/gtonkinhill/panaroo), utilizando a linha padrão para arquivos não gerados pelo NCBI, ou seja, através dos gff obtidos com o prokka
>panaroo -i *.gff -o <nome da pasta para os resultados> --clean-mode strict
## Processamento dos resultados do Panaroo
#### Utilizamos a ferramenta panstripe tool (https://github.com/gtonkinhill/panstripe) para obter os gráficos de pós processamento dos resultados do Panaroo, para isso, anteriormente, foi necessária a formação de uma árvore filogenômica dos arquivos que passaram pelo checkM (esse programa é em R)
>library(panstripe)
library(ape)
library(patchwork)
set.seed(1234)
pa <- read_rtab(rtab.file.name) # Arquivo resultado do Panaroo
tree <- read.tree(phylo.file.name) # Arquivo com a árvore newick
#### Iniciando
>fit <- panstripe(pa, tree) # Pode ser que o resultado demande um modelo alternativo como em:
fit_gaussian <- panstripe(pa, tree, family = "gaussian")
>fit$summary
plot_pangenome_params(fit)
plot_pangenome_branches(fit)
plot_pangenome_curve(fit)
plot_pangenome_cumulative(fit)
variable_genes <- colnames(pa)[apply(pa, 2, sd) > 0]
plot_tree_pa(tree = tree, pa = pa, genes = variable_genes, label_genes = FALSE, cols = "black")
plot_gain_loss(fit)
plot_acc(pa)
## Anotando o pangenoma
#### Para realizar a anotação do pangenoma, foi utilizado o programa eggNOG-mapper v2 (https://github.com/eggnogdb/eggnog-mapper), observando a representação dos termos COGs no mesmo:
>/opt/Software/eggnog-mapper/emapper.py -m diamond --itype genome -i pan_genome_reference.fa -d /opt/Software/eggnog-mapper/data/eggnog.db -o eggnog --dmnd_iterate no
## Construção da árvore filogenômica
#### Inicialmente os genomas foram submetidos ao Busco (https://busco.ezlab.org/) para serem extraídos os genes compartilhados entre todos os genomas que serviriam como base para a construção da árvore:
>busco -i <arquivo genoma> -l <linhagem ao qual o genoma pertence tida no banco de dados do busco> -o <pasta de saída> -m genome
#### Com os resultados obtidos no busco, foram utilizadas as pastas "run_" de cada genoma para a construção da árvore pela pipeline BUSCO_Phylogenomics (https://github.com/jamiemcg/BUSCO_phylogenomics)
>python BUSCO_phylogenomics.py -d <pasta com os arquivos run_> -o <pasta onde serão destinados os resultados> --supermatrix -t 8
## Predição das bacteriocinas (BAGEL4)
>bagel4_wrapper.pl -i <caminho para o genoma> -r .fna$ # Tem que mudar os caminhos nos arquivos dependentes do bagel