# ANÁLISE METAGENÔMICA
### ACESSAR
```
ssh jaquelinegaliardo@access2.grid.unesp.br
```
Abrir caderno feito pela Jara (para seguir o passo a passo)
> GRIDUnesp
```
https://hackmd.io/cqJok1bhRLqr0FdKK_ruzQ?view
```
> Italia
```
https://hackmd.io/9_3GICpbQfqFx31pxLaSiw#Instalar-MIniconda-e-Qiime2
```
#### 1. Baixar Miniconda
https://docs.conda.io/projects/conda/en/latest/user-guide/install/linux.html
Para encontrar as pastas
```
ls
```
Para encontrar caminho da pasta
```
pwd
```
Comando pessoal para passar Miniconda para GridUnesp (**o comando tem que ser feito no terminal pessoal**)
```
scp -r /home/qiime2/Downloads/Miniconda3-latest-Linux-x86_64.sh jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo
```
#### 2. Ativar o Miconda
```
bash Miniconda3-latest-Linux-x86_64.sh
```
#### 3. Atualizar conda
```
conda update -n base -c defaults conda
```
#### 4. Instalar wget
```
a. conda install wget
b. wget https://data.qiime2.org/distro/core/qiime2-2021.4-py38-linux-conda.yml
c. conda env create -n qiime2-2021.4 --file qiime2-2021.4-py38-linux-conda.yml
d. conda activate qiime2-2021.4
```
> Para usar o quiime, precisa ativar o mesmo
```
conda activate qiime2-2021.4
```
#### 5. Download das amostras (google Drive)
#### 6. Criar pastas
a. dentro de documentos, criar pasta com nome `prova`.
b. dentros de prova, criar pasta com nome `raw-reads`.
#### 7. No terminal pessoal criar o comando **abaixo**, para carregar todas as amostras presentes na pasta `raw-reads`.
```
scp -r /home/qiime2/Documents/prova/raw-reads/ jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo
```
> Apos instalacao do programa
### PASSO A PASSO
#### 1. Acessar Grid Unesp
```
ssh jaquelinegaliardo@access2.grid.unesp.br
```
> como saber se estou no quiime? Se aparecer `(base)`, significa que nao estou no quiime, para ativa-lo
>
#### 2. Ativar quiime2 (no terminal do Grid)
> para ativar o meu (apenas, 1 comando)
```
1.conda activate qiime2-2021.4
```
> para ativar o da Jara (2 comandos)
```
1. source activate qiime
2. conda activate qiime2-2021.4
```
#### 3. Para encontrar as amostras (no terminal do Grid)
> saber onde estou
`ls`
> encontrar caminho da pasta
`pwd`
> abrir pasta
`cd`
> voltar uma pasta
`cd ../`
> `-r` significa que e uma pasta
#### 4. Analise com prova
```
qiime tools import --type 'SampleData[PairedEndSequencesWithQuality]' --input-path raw-reads/ --input-format CasavaOneEightSingleLanePerSampleDirFmt --output-path demux-paired-end.qza
```
> criado `demux-paired-end.qza`
> esperar, pois, demora!
#### 5. Primers (fazer esse passo, so se tiver essa informacao)
> primers usados para minha amostra
> região V3-V4 do 16SrRNA conforme protocolo da Illumina
> V3-V4F: 5' TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCAG 3'
> V3-V4R: 5' GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC 3'
a. primeiro comando
```
qiime cutadapt trim-paired --p-cores 7 --p-front-f CCTACGGG --p-front-r GACTAC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-paired-end.qza
```
> atencao!!! trocar a sequencia que vem apos`--p-front-f` e `--p-front-r` pelas usadas para o meu projeto. Incluir somente as letras, e nao precisa ser a porcao inteira (se basear na quantidade de letras que a Jara usou)
> comando para as minhas amostras
```
qiime cutadapt trim-paired --p-cores 7 --p-front-f TCGTCGGC --p-front-r GTCTCC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-paired-end.qza
```
> `p-cores 7` como se fosse 7 CPU ou maquinas trabalhando ao mesmo tempo (quanto maior o numero, mais rapido vai rodar)
> Tentar com 7, caso fique rodando 1 dia e nao de certo, avisar a Jara. Pois, precisa entrar em contato com o pessoal da TI (pra aumentar esse numero)
> criado `primer_trimmed/trimmed_sequences.qza`
> dar `ls`
> no terminal do Grid ira aparecer `demux-paired-end.qza miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads`
> para andar mais rapido com a seta nos comandos `Ctrl+C e a seta`
b. segundo comando
```
qiime demux summarize --i-data primer_trimmed/trimmed_sequences.qza --output-dir demux_summarize
```
> criado `demux_summarize/visualization.qzv`
> dar `ls` pra ver se criou
> no terminal do Grid ira aparecer `demux_summarize miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads`
> a escreita em azul quer dizer que criou uma pasta
c. terceiro comando
```
qiime tools export --input-path demux_summarize/visualization.qzv --output-path demux_summary
```
> criado `demux_summary`
> dar `ls`
> no terminal do Grid ira aparecer`demux_summarize demux_summary miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads`
Passar pasta `summary` para o **terminal pessoal**, pois, precisamos visualizar e no terminal do GridUnesp nao e possivel
> importante saber o caminho da pasta (no meu caso ficou diferente do que a Jara fez)
```
scp -r jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/demux_summary .
```
> baixou no `/home/qiime2`
> da proxima eu quero baixar em download
```
ls
cd Downloads/
/home/qiime2/Downloads
```
Da pasta `demux_summary`, abrir apenas **quality plot**
no eixo `quality score` ideal olhar ate 30.

d. quarto comando
Para ver percentage of input passed filtred numeric, na tabela dada_stat gerada
> **denoising**
```
qiime dada2 denoise-paired --i-demultiplexed-seqs demux-paired-end.qza --p-trim-left-f 8 --p-trim-left-r 12 --p-trunc-len-f 250 --p-trunc-len-r 240 --p-trunc-q 3 --p-max-ee-f 5 --p-max-ee-r 5 --p-chimera-method pooled --p-pooling-method pseudo --p-min-fold-parent-over-abundance 10 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7
```
> criado
> `asv-table.qza`
> `rep-seqs-dada2.qza`
> `dada_stat.qza`
> **criar tabela qualidade denoising**
```
qiime tools export --input-path dada_stat.qza --output-path dada_stat
```
> criado `directory dada_stat`
> **tranferir dados para visualização (terminal pessoal)**
```
scp jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/dada_stat/stats.tsv .
```

Comparar percentage of input passed filtred numeric com non-chimeric. Percentual aceitavel (considerado bom) e de 60% ou acima
Se der abaixo de 60% uma opcao seria realizar a junção antes de denoising) - a verificar
##### **SITE QIIME - TIRAR DUVIDAS E RELATAR PROBLEMAS**
```
https://forum.qiime2.org/t/bad-quality-plot-quality/24448
```

#### 6. Joined antes de qiime
a. baixar PRINSEQ no **terminal pessoal** (semelhante ao FLASH, porém usado para cortar par 250 - ele serve para juntar foward e reverse)
### **TESTES (MELHORAR QUALIDADE DA AMOSTRA)**
#### **CORTE**
**COMANDOS PARA FAZER TODAS JUNTAS** (no terminal do Grid)
> criar uma pasta `reads_single`
```
ls *.fastq.gz > list.txt
```
```
sed -e 's/_R1_001.fastq.gz//g' -e 's/_R2_001.fastq.gz//g' list.txt > list2.txt
```
```
sort -u list2.txt > list3.txt
```
```
gunzip *.gz
```
Em seguida, usar o PRINSEQ **(nesse o corte está para 250pb)**
> site para download
> `https://anaconda.org/bioconda/prinseq/files`
> terminal pessoal
```
scp -r /home/qiime2/Downloads/prinseq-0.20.4-hdfd78af_5.tar.bz2 jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo
```
Fazer os comandos dentro da pasta PRINSEQ
> depois de descompactar a pasta, mudar a
permissão de uso do programa para torná-lo executável (via terminal)
> `chmod 766 prinseq-lite.pl`
> `chmod 766 prinseq-graphs.p`
> para instalar, executar um dos seguintes comandos
> `conda install -c bioconda prinseq`
> `conda install -c “bioconda/label/cf201901” prinseq`
Outros comandos que podem ajudar
> para permitir que o usuário, o grupo e usuários externos possam utilizar o PRINSEQ
> `chmod 777 prinseq-lite.pl`
> para permitir que apenas o usuário e o grupo leiam, escrevam e executem esse arquivo
> `chmod 770 prinseq-lite.pl`
**NAO ESQUECER DE CRIAR A PASTA `Cut`** antes de realizar o comando
Criar pasta `cut`, dentro da pasta `raw-reads`
> para criar pasta
> `mkdir cut`
**ATENCAO!!!** nos detalhes do comando em relação ao **caminho de onde fica a pasta do PRINSEQ** e **aos nomes das amostras** (nesse o corte está para 250pb)
> a instalacao tem que ser feita fora do quiime (qiime2-2021.4), tem que estar `(base)`
```
for x in $(<list3.txt); do perl ~/prinseq-lite-0.20.4/prinseq-lite.pl -fastq "$x"_R1_001.fastq -fastq2 "$x"_R2_001.fastq -out_good cut/"$x" -trim_to_len 251; done
```
#### **JUNÇÃO** (fora do quiime)
> site para download
> `https://ccb.jhu.edu/software/FLASH/`
> terminal pessoal
```
scp -r /home/qiime2/Downloads/FLASH-1.2.11-Linux-x86_64.tar.gz jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo
```
> terminal Grid
> pasta FLASH-1.2.11-Linux-x86_64.tar.gz esta zipada (vermelho)
> para extrair `tar xzf FLASH-1.2.11-Linux-x86_64.tar.gz` (ficara azul)
> `cd FLASH-1.2.11-Linux-x86_64`
> `make` (pra mim esse nao deu certo)
> copiando list3.txt para pasta cut (comando feio dentro da pasta raw-reads)
> `cp list3.txt /home/jaquelinegaliardo/raw-reads/cut`
> para juntar *forward* e *reverse* (comando feio dentro da pasta **raw-reads**) - **ATENCAO!!!** no formato dos arquivos (_R1_001.fastq / _R2_001.fastq)
> `for x in $(<list3.txt); do /home/jaquelinegaliardo/FLASH-1.2.11-Linux-x86_64/flash "$x"_R1_001.fastq "$x"_R2_001.fastq -d $x -o $x; done`
> para juntar *forward* e *reverse* (comando feio dentro da pasta **cut**) - **ATENCAO!!!** no formato dos arquivos (_1.fastq / _2.fastq)
> `for x in $(<list3.txt); do /home/jaquelinegaliardo/FLASH-1.2.11-Linux-x86_64/flash "$x"_1.fastq "$x"_2.fastq -d $x -o $x; done`
> criar pasta lixo
> `mkdir lixo`
> movendo alguns arquivos para a pasta lixo
> `mv **/*hist lixo/`
> `mv **/*histogram lixo/`
> `mv **/*.notCombined_1.fastq lixo/`
> `mv **/*.notCombined_2.fastq lixo/`
> `rm -r lixo`
> criar pasta (dentro da pasta cut)
> `mkdir paired_reads`
> seguir com esses comandos (dentro da pasta cut)
> `mv *.fastq paired_reads/`
> `mv paired_reads/ ../`
> criar pasta (dentro da pasta cut)
> `mkdir raw_reads`
> fazer esse comando (dentro da pasta cut)
> `mv **/*fastq raw_reads`
> substutiir .extendedFrags.fastq por _R1_001.fastq
```
for f in *.extendedFrags.fastq; do
mv -- "$f" "${f%.extendedFrags.fastq}_R1_001.fastq"
done
```
Copiando amostras PRINSEQ + FLASH para o terminal pessoal
```
scp -r jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/raw-reads/cut/raw_reads .
```
> passar para o DRIVE
> **a.** ativar o qiime
> **b.** zipar as amostar da pasta **raw_reads** (que fica dentro da pasta cut) `gzip *.fastq`
> **c.** fazer o comando a baixo, dentro da pasta cut
```
qiime tools import --type 'SampleData[SequencesWithQuality]' --input-path raw_reads/ --input-format CasavaOneEightSingleLanePerSampleDirFmt --output-path demux-single-end.qza
```
> criado
> `Imported raw_reads/ as CasavaOneEightSingleLanePerSampleDirFmt to demux-single-end.qza`
> **d.** preciso usar **forward** do prime utilizado no meu trabalho
```
qiime cutadapt trim-single --p-cores 7 --p-front TCGTCGGC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-single-end.qza
```
> criado
> `Saved SampleData[SequencesWithQuality] to: primer_trimmed/trimmed_sequences.qza`
> **e.** filtros
```
qiime dada2 denoise-single --i-demultiplexed-seqs primer_trimmed/trimmed_sequences.qza --p-trunc-len 0 --p-trim-left 0 --p-trunc-q 3 --p-max-ee 2 --p-chimera-method consensus --p-pooling-method pseudo --p-min-fold-parent-over-abundance 10 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7
```
> criado
> `Saved FeatureTable[Frequency] to: asv-table.qza`
> `Saved FeatureData[Sequence] to: rep-seqs-dada2.qza`
> `Saved SampleData[DADA2Stats] to: dada_stat.qza`
Dentro da pasta cut, fazer os seguintes comandos
```
qiime demux summarize --i-data demux-single-end.qza --output-dir demux_summarize
```
> criado `demux_summarize/visualization.qzv`
```
qiime tools export --input-path demux_summarize/visualization.qzv --output-path demux_summary
```
> criado `demux_summary`
> **f.** fazer download do quality plot e stat.stv no terminal pessoal

O ideal e que os valores do **input numeric** tenham no minimo 6 casas decimais, antes do corte e juncao tinha de 4 a 5 casas e depois ficou com de 1 a 2 casas decimais.
Para melhorar a qualidade vamos testar os filtros abaixo
```
qiime dada2 denoise-paired --i-demultiplexed-seqs demux-paired-end.qza --p-trim-left-f 0 --p-trim-left-r 0 --p-trunc-len-f 0 --p-trunc-len-r 0 --p-trunc-q 2 --p-max-ee-f 2 --p-max-ee-r 2 --p-chimera-method pooled --p-pooling-method pseudo --p-min-fold-parent-over-abundance 1 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7
```
### INFORMACOES PARA METODOLOGIA
