O exemplo de análise será realizado utilizando o proteoma da bactéria Escherichia coli strain K12 a partir do portal do UniProt.
Link direto para a página do UniProt: Proteoma de E. coli no UniProt
Link FTP para download direto das sequências: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/reference_proteomes/Bacteria/UP000000625_83333.fasta.gz
Referência com mais detalhes sobre o treinamento para obtenção do proteoma a partir do EBI: https://www.ebi.ac.uk/training/online/course/uniprot-exploring-protein-sequence-and-functional/when-use-uniprot-guided-examples/download-p
Se estiver em mãos um transcriptoma recém montado, ainda sem a predição de proteínas e deseja realizar a predição de proteínas, o progrma indicado é o TransDecoder.
Para efeito de treinamento, vamos obter o transcriptoma desta mesma E. coli a partir do genoma, utilizando a ferramenta gffread:
Obtendo o genoma a partir do NCBI:
Obtendo a anotação do genoma a partir do NCBI:
Obtendo as sequências do transcriptoma a partir do genoma:
Observe bem os parâmetros que em determinadas situações devem ser alterados!
Em especial:
--genetic_code string (genetic code)
--gene_trans_map string (gene-to-transcript identifier mapping file)
-m int (minimum protein length)
-S strand-specific (only analyzes top strand)
Atenção:
Obtenha e prepare o banco de dados do Pfam para execução de buscas HMM:
Observe bem os parâmetros que em determinadas situações devem ser alterados!
Em especial:
--genetic_code string (genetic code)
--single_best_only (Retain only the single best orf per transcript, prioritized by homology then orf length)
O programa eggNOG-mapper realiza uma anotação rápida utilizando como referência o banco de dados eggNOG.
Para utilizar o programa faSplit, deve compilar as ferramentas do UCSC-GenomeBrowser.
O primeiro arquivo será o goatools/association, que irá conter todas as relações entre os IDs possíveis de estarem no conjunto que será avaliado o enriquecimento dos termos. Neste caso serão todas as proteínas (proteoma) de E. coli.
O preparo do arquivo goatools/association começa a partir do resultado de anotação com eggNOG-mapper vamos selecionar a primeira (ID) e a sétima coluna (GOs):
Devemos formatar o arquivo resultante (emapper_gos.txt) para conter um único ID associado a um único GO por linha:
Então, agregar novamente por ID, porém, separando com ";" os GOs:
Remover os cabeçalhos:
pode ser feito também com tail:
Abaixo o resultado das primeiras linhas do arquivo ./goatools/association:
O arquivo a seguir contém todos os IDs de genes de E. coli com anotação GO no formato de entrada nativo do WEGO:
Para utilizá-lo, basta acessar o site http://wego.genomics.org.cn/.
…, selecionar o tipo de formato ("Native Format") do arquivo (WEGO.txt), carregá-lo e submeter.
Para obter o clássico gráfico de barras com a proporção de termos do GO, clique no botão Graph:
Para adicionar mais de uma lista a fim de comparar a proporção de termos do GO, é necessário selecionar mais de um arquivo contendo a lista desejada, antes de submeter.
O segundo arquivo será o goatools/population, que irá conter todos os IDs possíveis de estarem no conjunto que será avaliado o enriquecimento dos termos. Neste caso serão todas as proteínas (proteoma) de E. coli, ou seja, de toda a população de proteínas que possivelmente podem estar no arquivo de estudo (goatools/study).
Download go-basic.obo:
O arquivo goatools/study deve conter os IDs das proteínas em que se deseja investigar se há enriquecimento de termos do GO.
É importante que todo ID presente no arquivo de estudo (goatools/study) também esteja presente no arquivo com a população (goatools/population).
Abaixo, vamos apenas fazer um teste, considerando alguns IDs de proteínas que estão associadas com alguns GOs da lista de GOs mais frequentes. Essa prática serve apenas para esse efeito de teste.
Os primeiros IDs são de termos MUITO abrangentes:
GO:0008150 - biological_process
GO:0003674 - molecular_function
GO:0005575 - cellular_component
GO:0005623 - cell
GO:0044464 - cell part
GO:0009987 - cellular process
GO:0008152 - metabolic process
O resultado estará nos arquivos ./goatools/goea_all.xlsx e ./goatools/./goatools/goea_all.tsv:
Observando o resultado final, certamente terá como um dos itens mais enriquecidos o termo catalytic activity (GO:0003824):