
# Montagem de genomas com o GetOrganelles
###### tags: `Genoma` `Montagem` `Linux` `LSV` `Unesp` `OrgDNA`
---
:::warning
### Antes de olhar esse manual prático:
Este manual foi feito para utilização nas **aulas práticas de montagem de genomas de organelas** que serão realizadas por meio de servidor Linux alocado na UNESP/FCAV.
:::
---
# Download de dados brutos do SRA
:::info
É necessário instalar o programa [sra-toolkit](https://https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit) e colocar os arquivos no $PATH
:::
Primeiramente temos que localizar o código da corrida de sequenciamento de DNA no site do SRA no NCBI. No exemplo, vamos supor que queremos montar o genoma mitocondrial da espécie *Ramphastos sulfuratus* - Tucano-de-Bico-Arco-Íris

Os dados dessa espécie estão nos arquivos [WGS of Ramphastos sulfuratus](https://www.ncbi.nlm.nih.gov/sra/SRX6694955[accn]):

O código de corrida do sequenciamento fica na coluna **Run**:

Estrutura de comandos para baixar dados do [SRA](https://www.ncbi.nlm.nih.gov/sra):
fastq-dump --split-files <nº *SRRxxx* do SRA>
:::info
O "--split-files", é uma opção usada para baixar os dados de sequências paired-end em arquivos separados, geralmente indicados por _1 (primeiro par) _2 (segundo par)
:::
Comando de exemplo:
```bash!
fastq-dump --split-files SRR9946434
```
Aguarde acabar o processo, haja vista que, pela quantidade de dados, esse procedimento pode ser demorado.
# Montar um genoma a partir do toolkit GetOrganelle
Primeiramente vamos entar no ambiente conda, por meio do comando:
```bash!
conda activate getorganelle
```
## Genoma de mtDNA de animal
### Versão do GetOrganelle v.1.7.7
Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos:
```bash!
get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 10 -k 21,45,65,85,105 -F animal_mt -o animal_mt_out
```
:::info
-1 forward.fq = corresponde as reads *_R1* baixadas do SRA
-2 reverse.fq = corresponde as reads *_R2* baixadas do SRA
-R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas
-k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma
-F = Qual a base de dados que irá utilizar para fazer o mapeamento
-o = em que diretório vai colocar os arquivos de output (saída)
:::
## Genoma de ptDNA de planta (embryophyta)
De acordo com a experiência, nós percebemos que as vezes a versão antiga do GetOrganelle monta melhor alguns genomas de cloroplasto, portanto vamos descrever o uso básico com as duas versões (quando forem fazer sozinhos, usem primeiro a versão mais nova e se não obtiverem a montagem em um contig, tente usar a versão mais velha)
### Versão do GetOrganelle v.1.7.7
Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos:
```bash!
get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 15 -k 21,45,65,85,105 -F embplant_pt -o embplant_pt_out
```
:::info
-1 forward.fq = corresponde as reads *_R1* baixadas do SRA
-2 reverse.fq = corresponde as reads *_R2* baixadas do SRA
-R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas
-k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma
-F = Qual a base de dados que irá utilizar para fazer o mapeamento
-o = em que diretório vai colocar os arquivos de output (saída)
:::
### Versão do GetOrganelle v.1.5.2
Existem diversas "Receitas" para fazê-lo, mas a maneira mais comumente usada, e que tem funcionado para a maioria dos datasets consiste nos comandos:
```bash!
get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -R 15 -k 21,45,65,85,105 -F plant_cp -o embplant_pt_out
```
:::info
-1 forward.fq = corresponde as reads *_R1* baixadas do SRA
-2 reverse.fq = corresponde as reads *_R2* baixadas do SRA
-R = corresponde a quantas vezes ele vai, iterativamente, tentar estender as reads mapeadas
-k = quais serão os k-mers que serão utilizados pelo SPADES para montar o genoma
-F = Qual a base de dados que irá utilizar para fazer o mapeamento
-o = em que diretório vai colocar os arquivos de output (saída)
:::
# Possíveis resultados do GetOrganelle
## Montagem bem sucedida
### Versão do GetOrganelle v.1.7.7

### Versão do GetOrganelle v.1.5.2

# Arquivos de saída do GetOrganelle
Supondo que o genoma foi montado e circularizado com sucesso, obteremos os seguintes arquivos e pastas:
## Versão do GetOrganelle v.1.7.7
```bash!
animal_mt.K115.complete.graph1.1.path_sequence.fasta
animal_mt.K115.complete.graph1.selected_graph.gfa
extended_1_paired.fq
extended_1_unpaired.fq
extended_2_paired.fq
extended_2_unpaired.fq
extended_K115.assembly_graph.fastg
extended_K115.assembly_graph.fastg.extend-animal_mt.csv
extended_K115.assembly_graph.fastg.extend-animal_mt.fastg
extended_spades/
get_org.log.txt
seed/
```
Sendo que o arquivo que conterá nossa montagem será o arquivo de final: ***.path_sequence.fasta**
## Versão do GetOrganelle v.1.5.2
```bash!
filtered_1_paired.fq
filtered_1_unpaired.fq
filtered_2_paired.fq
filtered_2_unpaired.fq
filtered_spades/
get_org.log.txt
Initial.mapped.fq
plant_cp.K95.assembly_graph.fastg
plant_cp.K95.assembly_graph.fastg.extend_plant_cp.del_plant_mt.fastg
plant_cp.K95.assembly_graph.fastg.extend_plant_cp.del_plant_mt.csv
plant_cp.K95.complete.graph1.1.path_sequence.fasta
plant_cp.K95.complete.graph1.2.path_sequence.fasta
plant_cp.K95.complete.graph1.selected_graph.gfa
seed_bowtie.sam
```
Sendo que o arquivo que conterá nossa montagem será o arquivo de final: ***.path_sequence.fasta**
# Troubleshooting GetOrganelle
Vamos supor que o OrgDNA não circularize. Antes de desistir podemos mexer em alguns parâmetros. Para saber o que fazer, é fundamental ler o [manual do programa](https://github.com/Kinggerm/GetOrganelle). Existe uma seção de FAQ que tem sugestões para melhorar sua montagem. Entre as sugestões, se você conseguiu montar um genoma próximo do completo (1-4 scaffolds), tente submeter a análise novamente modificando os parâmetros:
- Aumentando o número de reads com os parâmetros --reduce-reasd-for-coverage ou --max-read
- Reduzindo o tamanho das palavras que usa para criar os overlaps das seeds que ele irá estender. -w, sendo que valores razoáveis para tamanho de palavra vão de 65 a 105 (para saber qual o programa usou, olhe o output - .log - e diminua o tamanho. Ex. -w 75 para -w 65)
- Usar seeds de espécies próximas. Para isso, inclua os genes (no formato fasta) na opção -s
- Aumente o número de rodadas de estensão com o -R
- Tente um maior número de k-mers (-k)
para mais sugestões veja o site: [FAQ](https://github.com/Kinggerm/GetOrganelle/wiki/FAQ#what-is-a-good-word-size-value)