Montagem de genomas com o GetOrganelles

![](https://i.imgur.com/0y2WqLA.png) # Montagem de genomas com o GetOrganelles ###### tags: `Genoma` `Montagem` `Linux` `LSV` `Unesp` `OrgDNA` --- :::warning ### Antes de olhar esse manual prático: Este manual foi feito para utilização nas **aulas práticas de montagem de genomas de organelas** que serão realizadas por meio de servidor Linux alocado na UNESP/FCAV. ::: --- # Download de dados brutos do SRA :::info É necessário instalar o programa [sra-toolkit](https://https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit) e colocar os arquivos no $PATH ::: Primeiramente temos que localizar o código da corrida de sequenciamento de DNA no site do SRA no NCBI. No exemplo, vamos supor que queremos montar o genoma mitocondrial da espécie *Ramphastos sulfuratus* - Tucano-de-Bico-Arco-Íris ![](https://i.imgur.com/YpTiCc4.png) Os dados dessa espécie estão nos arquivos [WGS of Ramphastos sulfuratus](https://www.ncbi.nlm.nih.gov/sra/SRX6694955[accn]): ![](https://i.imgur.com/WEQHLws.png) O código de corrida do sequenciamento fica na coluna **Run**: ![](https://i.imgur.com/87OF9Hb.png) Estrutura de comandos para baixar dados do [SRA](https://www.ncbi.nlm.nih.gov/sra): fastq-dump --split-files <nº *SRRxxx* do SRA> :::info O "--split-files", é uma opção usada para baixar os dados de sequências paired-end em arquivos separados, geralmente indicados por _1 (primeiro par) _2 (segundo par) ::: Comando de exemplo: ```bash! fastq-dump --split-files SRR9946434 ``` Aguarde acabar o processo, haja vista que, pela quantidade de dados, esse procedimento pode ser demorado. # Montar um genoma a partir do toolkit GetOrganelle Primeiramente vamos entar no ambiente conda, por meio do comando: ```bash! conda activate getorganelle ``` ## Genoma de mtDNA de animal ### Versão do GetOrganelle v.1.7.7 Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos: ```bash! get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 10 -k 21,45,65,85,105 -F animal_mt -o animal_mt_out ``` :::info -1 forward.fq = corresponde as reads *_R1* baixadas do SRA -2 reverse.fq = corresponde as reads *_R2* baixadas do SRA -R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas -k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma -F = Qual a base de dados que irá utilizar para fazer o mapeamento -o = em que diretório vai colocar os arquivos de output (saída) ::: ## Genoma de ptDNA de planta (embryophyta) De acordo com a experiência, nós percebemos que as vezes a versão antiga do GetOrganelle monta melhor alguns genomas de cloroplasto, portanto vamos descrever o uso básico com as duas versões (quando forem fazer sozinhos, usem primeiro a versão mais nova e se não obtiverem a montagem em um contig, tente usar a versão mais velha) ### Versão do GetOrganelle v.1.7.7 Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos: ```bash! get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 15 -k 21,45,65,85,105 -F embplant_pt -o embplant_pt_out ``` :::info -1 forward.fq = corresponde as reads *_R1* baixadas do SRA -2 reverse.fq = corresponde as reads *_R2* baixadas do SRA -R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas -k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma -F = Qual a base de dados que irá utilizar para fazer o mapeamento -o = em que diretório vai colocar os arquivos de output (saída) ::: ### Versão do GetOrganelle v.1.5.2 Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos: ```bash! get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 15 -k 21,45,65,85,105 -F plant_cp -o embplant_pt_out ``` :::info -1 forward.fq = corresponde as reads *_R1* baixadas do SRA -2 reverse.fq = corresponde as reads *_R2* baixadas do SRA -R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas -k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma -F = Qual a base de dados que irá utilizar para fazer o mapeamento -o = em que diretório vai colocar os arquivos de output (saída) ::: # Possíveis resultados do GetOrganelle ## Montagem bem sucedida ### Versão do GetOrganelle v.1.7.7 ![](https://i.imgur.com/O4O94br.png) ### Versão do GetOrganelle v.1.5.2 ![](https://i.imgur.com/SnSEEx3.png) # Arquivos de saída do GetOrganelle Supondo que o genoma foi montado e circularizado com sucesso, obteremos os seguintes arquivos e pastas: ## Versão do GetOrganelle v.1.7.7 ```bash! animal_mt.K115.complete.graph1.1.path_sequence.fasta animal_mt.K115.complete.graph1.selected_graph.gfa extended_1_paired.fq extended_1_unpaired.fq extended_2_paired.fq extended_2_unpaired.fq extended_K115.assembly_graph.fastg extended_K115.assembly_graph.fastg.extend-animal_mt.csv extended_K115.assembly_graph.fastg.extend-animal_mt.fastg extended_spades/ get_org.log.txt seed/ ``` Sendo que o arquivo que conterá nossa montagem será o arquivo de final: ***.path_sequence.fasta** ## Versão do GetOrganelle v.1.5.2 ```bash! filtered_1_paired.fq filtered_1_unpaired.fq filtered_2_paired.fq filtered_2_unpaired.fq filtered_spades/ get_org.log.txt Initial.mapped.fq plant_cp.K95.assembly_graph.fastg plant_cp.K95.assembly_graph.fastg.extend_plant_cp.del_plant_mt.fastg plant_cp.K95.assembly_graph.fastg.extend_plant_cp.del_plant_mt.csv plant_cp.K95.complete.graph1.1.path_sequence.fasta plant_cp.K95.complete.graph1.2.path_sequence.fasta plant_cp.K95.complete.graph1.selected_graph.gfa seed_bowtie.sam ``` Sendo que o arquivo que conterá nossa montagem será o arquivo de final: ***.path_sequence.fasta** # Troubleshooting GetOrganelle Vamos supor que o OrgDNA não circularize. Antes de desistir podemos mexer em alguns parâmetros. Para saber o que fazer, é fundamental ler o [manual do programa](https://github.com/Kinggerm/GetOrganelle). Existe uma seção de FAQ que tem sugestões para melhorar sua montagem. Entre as sugestões, se você conseguiu montar um genoma próximo do completo (1-4 scaffolds), tente submeter a análise novamente modificando os parâmetros: - Aumentando o número de reads com os parâmetros --reduce-reasd-for-coverage ou --max-read - Reduzindo o tamanho das palavras que usa para criar os overlaps das seeds que ele irá estender. -w, sendo que valores razoáveis para tamanho de palavra vão de 65 a 105 (para saber qual o programa usou, olhe o output - .log - e diminua o tamanho. Ex. -w 75 para -w 65) - Usar seeds de espécies próximas. Para isso, inclua os genes (no formato fasta) na opção -s - Aumente o número de rodadas de estensão com o -R - Tente um maior número de k-mers (-k) para mais sugestões veja o site: [FAQ](https://github.com/Kinggerm/GetOrganelle/wiki/FAQ#what-is-a-good-word-size-value)