Comandos usados para a IC

# Comandos usados para a IC ## Coleta dos genomas ##### Para baixar os genomas e os dados referentes a origem do isolado etc ... usei o site https://www.ncbi.nlm.nih.gov/genome/ ## Verificação da qualidade do genoma ##### Para isso, foi rodado todos os genomas por meio do programa CheckM (https://github.com/Ecogenomics/CheckM), escolhendo os genomas com completude maior que 90% e contaminação menor que 10%, comando foi: > checkm <nome da linhagem tida no checkM> --genes -t 8 -x faa <pasta com genomas> <pasta com resultados> ## Anotando os genomas #### Com os genomas que passaram pelo filtro dos resultados obtidos pelo checkM, utilizamos o prokka (https://github.com/tseemann/prokka) para realizar a anotação desses para posteriormente realizar a montagem do pangenoma > /opt/Software/prokka/bin/prokka --addgenes --addmrna --kingdom <reino> --cpus 12 --prefix <nome que deseja inserir> --locustag <nome que deseja inserir> --outdir <nome que deseja inserir> --genus <gênero> --species <epíteto específico> --strain <nome da cepa> --compliant <caminho do genoma> ## Análise de pangenoma #### O pangenoma foi determinado pelo Panaroo (https://github.com/gtonkinhill/panaroo), utilizando a linha padrão para arquivos não gerados pelo NCBI, ou seja, através dos gff obtidos com o prokka >panaroo -i *.gff -o <nome da pasta para os resultados> --clean-mode strict ## Processamento dos resultados do Panaroo #### Utilizamos a ferramenta panstripe tool (https://github.com/gtonkinhill/panstripe) para obter os gráficos de pós processamento dos resultados do Panaroo, para isso, anteriormente, foi necessária a formação de uma árvore filogenômica dos arquivos que passaram pelo checkM (esse programa é em R) >library(panstripe) library(ape) library(patchwork) set.seed(1234) pa <- read_rtab(rtab.file.name) # Arquivo resultado do Panaroo tree <- read.tree(phylo.file.name) # Arquivo com a árvore newick #### Iniciando >fit <- panstripe(pa, tree) # Pode ser que o resultado demande um modelo alternativo como em: fit_gaussian <- panstripe(pa, tree, family = "gaussian") >fit$summary plot_pangenome_params(fit) plot_pangenome_branches(fit) plot_pangenome_curve(fit) plot_pangenome_cumulative(fit) variable_genes <- colnames(pa)[apply(pa, 2, sd) > 0] plot_tree_pa(tree = tree, pa = pa, genes = variable_genes, label_genes = FALSE, cols = "black") plot_gain_loss(fit) plot_acc(pa) ## Anotando o pangenoma #### Para realizar a anotação do pangenoma, foi utilizado o programa eggNOG-mapper v2 (https://github.com/eggnogdb/eggnog-mapper), observando a representação dos termos COGs no mesmo: >/opt/Software/eggnog-mapper/emapper.py -m diamond --itype genome -i pan_genome_reference.fa -d /opt/Software/eggnog-mapper/data/eggnog.db -o eggnog --dmnd_iterate no ## Construção da árvore filogenômica #### Inicialmente os genomas foram submetidos ao Busco (https://busco.ezlab.org/) para serem extraídos os genes compartilhados entre todos os genomas que serviriam como base para a construção da árvore: >busco -i <arquivo genoma> -l <linhagem ao qual o genoma pertence tida no banco de dados do busco> -o <pasta de saída> -m genome #### Com os resultados obtidos no busco, foram utilizadas as pastas "run_" de cada genoma para a construção da árvore pela pipeline BUSCO_Phylogenomics (https://github.com/jamiemcg/BUSCO_phylogenomics) >python BUSCO_phylogenomics.py -d <pasta com os arquivos run_> -o <pasta onde serão destinados os resultados> --supermatrix -t 8 ## Predição das bacteriocinas (BAGEL4) >bagel4_wrapper.pl -i <caminho para o genoma> -r .fna$ # Tem que mudar os caminhos nos arquivos dependentes do bagel