# ANÁLISE METAGENÔMICA ### ACESSAR ``` ssh jaquelinegaliardo@access2.grid.unesp.br ``` Abrir caderno feito pela Jara (para seguir o passo a passo) > GRIDUnesp ``` https://hackmd.io/cqJok1bhRLqr0FdKK_ruzQ?view ``` > Italia ``` https://hackmd.io/9_3GICpbQfqFx31pxLaSiw#Instalar-MIniconda-e-Qiime2 ``` #### 1. Baixar Miniconda https://docs.conda.io/projects/conda/en/latest/user-guide/install/linux.html Para encontrar as pastas ``` ls ``` Para encontrar caminho da pasta ``` pwd ``` Comando pessoal para passar Miniconda para GridUnesp (**o comando tem que ser feito no terminal pessoal**) ``` scp -r /home/qiime2/Downloads/Miniconda3-latest-Linux-x86_64.sh jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo ``` #### 2. Ativar o Miconda ``` bash Miniconda3-latest-Linux-x86_64.sh ``` #### 3. Atualizar conda ``` conda update -n base -c defaults conda ``` #### 4. Instalar wget ``` a. conda install wget b. wget https://data.qiime2.org/distro/core/qiime2-2021.4-py38-linux-conda.yml c. conda env create -n qiime2-2021.4 --file qiime2-2021.4-py38-linux-conda.yml d. conda activate qiime2-2021.4 ``` > Para usar o quiime, precisa ativar o mesmo ``` conda activate qiime2-2021.4 ``` #### 5. Download das amostras (google Drive) #### 6. Criar pastas a. dentro de documentos, criar pasta com nome `prova`. b. dentros de prova, criar pasta com nome `raw-reads`. #### 7. No terminal pessoal criar o comando **abaixo**, para carregar todas as amostras presentes na pasta `raw-reads`. ``` scp -r /home/qiime2/Documents/prova/raw-reads/ jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo ``` > Apos instalacao do programa ### PASSO A PASSO #### 1. Acessar Grid Unesp ``` ssh jaquelinegaliardo@access2.grid.unesp.br ``` > como saber se estou no quiime? Se aparecer `(base)`, significa que nao estou no quiime, para ativa-lo > #### 2. Ativar quiime2 (no terminal do Grid) > para ativar o meu (apenas, 1 comando) ``` 1.conda activate qiime2-2021.4 ``` > para ativar o da Jara (2 comandos) ``` 1. source activate qiime 2. conda activate qiime2-2021.4 ``` #### 3. Para encontrar as amostras (no terminal do Grid) > saber onde estou `ls` > encontrar caminho da pasta `pwd` > abrir pasta `cd` > voltar uma pasta `cd ../` > `-r` significa que e uma pasta #### 4. Analise com prova ``` qiime tools import --type 'SampleData[PairedEndSequencesWithQuality]' --input-path raw-reads/ --input-format CasavaOneEightSingleLanePerSampleDirFmt --output-path demux-paired-end.qza ``` > criado `demux-paired-end.qza` > esperar, pois, demora! #### 5. Primers (fazer esse passo, so se tiver essa informacao) > primers usados para minha amostra > região V3-V4 do 16SrRNA conforme protocolo da Illumina > V3-V4F: 5' TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCAG 3' > V3-V4R: 5' GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC 3' a. primeiro comando ``` qiime cutadapt trim-paired --p-cores 7 --p-front-f CCTACGGG --p-front-r GACTAC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-paired-end.qza ``` > atencao!!! trocar a sequencia que vem apos`--p-front-f` e `--p-front-r` pelas usadas para o meu projeto. Incluir somente as letras, e nao precisa ser a porcao inteira (se basear na quantidade de letras que a Jara usou) > comando para as minhas amostras ``` qiime cutadapt trim-paired --p-cores 7 --p-front-f TCGTCGGC --p-front-r GTCTCC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-paired-end.qza ``` > `p-cores 7` como se fosse 7 CPU ou maquinas trabalhando ao mesmo tempo (quanto maior o numero, mais rapido vai rodar) > Tentar com 7, caso fique rodando 1 dia e nao de certo, avisar a Jara. Pois, precisa entrar em contato com o pessoal da TI (pra aumentar esse numero) > criado `primer_trimmed/trimmed_sequences.qza` > dar `ls` > no terminal do Grid ira aparecer `demux-paired-end.qza miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads` > para andar mais rapido com a seta nos comandos `Ctrl+C e a seta` b. segundo comando ``` qiime demux summarize --i-data primer_trimmed/trimmed_sequences.qza --output-dir demux_summarize ``` > criado `demux_summarize/visualization.qzv` > dar `ls` pra ver se criou > no terminal do Grid ira aparecer `demux_summarize miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads` > a escreita em azul quer dizer que criou uma pasta c. terceiro comando ``` qiime tools export --input-path demux_summarize/visualization.qzv --output-path demux_summary ``` > criado `demux_summary` > dar `ls` > no terminal do Grid ira aparecer`demux_summarize demux_summary miniconda3 primer_trimmed qiime2-2021.4-py38-linux-conda.yml raw-reads` Passar pasta `summary` para o **terminal pessoal**, pois, precisamos visualizar e no terminal do GridUnesp nao e possivel > importante saber o caminho da pasta (no meu caso ficou diferente do que a Jara fez) ``` scp -r jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/demux_summary . ``` > baixou no `/home/qiime2` > da proxima eu quero baixar em download ``` ls cd Downloads/ /home/qiime2/Downloads ``` Da pasta `demux_summary`, abrir apenas **quality plot** no eixo `quality score` ideal olhar ate 30. ![](https://i.imgur.com/LVpUUe8.png) d. quarto comando Para ver percentage of input passed filtred numeric, na tabela dada_stat gerada > **denoising** ``` qiime dada2 denoise-paired --i-demultiplexed-seqs demux-paired-end.qza --p-trim-left-f 8 --p-trim-left-r 12 --p-trunc-len-f 250 --p-trunc-len-r 240 --p-trunc-q 3 --p-max-ee-f 5 --p-max-ee-r 5 --p-chimera-method pooled --p-pooling-method pseudo --p-min-fold-parent-over-abundance 10 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7 ``` > criado > `asv-table.qza` > `rep-seqs-dada2.qza` > `dada_stat.qza` > **criar tabela qualidade denoising** ``` qiime tools export --input-path dada_stat.qza --output-path dada_stat ``` > criado `directory dada_stat` > **tranferir dados para visualização (terminal pessoal)** ``` scp jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/dada_stat/stats.tsv . ``` ![](https://i.imgur.com/YY1vFGe.png) Comparar percentage of input passed filtred numeric com non-chimeric. Percentual aceitavel (considerado bom) e de 60% ou acima Se der abaixo de 60% uma opcao seria realizar a junção antes de denoising) - a verificar ##### **SITE QIIME - TIRAR DUVIDAS E RELATAR PROBLEMAS** ``` https://forum.qiime2.org/t/bad-quality-plot-quality/24448 ``` ![](https://i.imgur.com/CrCEctf.jpg) #### 6. Joined antes de qiime a. baixar PRINSEQ no **terminal pessoal** (semelhante ao FLASH, porém usado para cortar par 250 - ele serve para juntar foward e reverse) ### **TESTES (MELHORAR QUALIDADE DA AMOSTRA)** #### **CORTE** **COMANDOS PARA FAZER TODAS JUNTAS** (no terminal do Grid) > criar uma pasta `reads_single` ``` ls *.fastq.gz > list.txt ``` ``` sed -e 's/_R1_001.fastq.gz//g' -e 's/_R2_001.fastq.gz//g' list.txt > list2.txt ``` ``` sort -u list2.txt > list3.txt ``` ``` gunzip *.gz ``` Em seguida, usar o PRINSEQ **(nesse o corte está para 250pb)** > site para download > `https://anaconda.org/bioconda/prinseq/files` > terminal pessoal ``` scp -r /home/qiime2/Downloads/prinseq-0.20.4-hdfd78af_5.tar.bz2 jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo ``` Fazer os comandos dentro da pasta PRINSEQ > depois de descompactar a pasta, mudar a permissão de uso do programa para torná-lo executável (via terminal) > `chmod 766 prinseq-lite.pl` > `chmod 766 prinseq-graphs.p` > para instalar, executar um dos seguintes comandos > `conda install -c bioconda prinseq` > `conda install -c “bioconda/label/cf201901” prinseq` Outros comandos que podem ajudar > para permitir que o usuário, o grupo e usuários externos possam utilizar o PRINSEQ > `chmod 777 prinseq-lite.pl` > para permitir que apenas o usuário e o grupo leiam, escrevam e executem esse arquivo > `chmod 770 prinseq-lite.pl` **NAO ESQUECER DE CRIAR A PASTA `Cut`** antes de realizar o comando Criar pasta `cut`, dentro da pasta `raw-reads` > para criar pasta > `mkdir cut` **ATENCAO!!!** nos detalhes do comando em relação ao **caminho de onde fica a pasta do PRINSEQ** e **aos nomes das amostras** (nesse o corte está para 250pb) > a instalacao tem que ser feita fora do quiime (qiime2-2021.4), tem que estar `(base)` ``` for x in $(<list3.txt); do perl ~/prinseq-lite-0.20.4/prinseq-lite.pl -fastq "$x"_R1_001.fastq -fastq2 "$x"_R2_001.fastq -out_good cut/"$x" -trim_to_len 251; done ``` #### **JUNÇÃO** (fora do quiime) > site para download > `https://ccb.jhu.edu/software/FLASH/` > terminal pessoal ``` scp -r /home/qiime2/Downloads/FLASH-1.2.11-Linux-x86_64.tar.gz jaquelinegaliardo@access.grid.unesp.br:/home/jaquelinegaliardo ``` > terminal Grid > pasta FLASH-1.2.11-Linux-x86_64.tar.gz esta zipada (vermelho) > para extrair `tar xzf FLASH-1.2.11-Linux-x86_64.tar.gz` (ficara azul) > `cd FLASH-1.2.11-Linux-x86_64` > `make` (pra mim esse nao deu certo) > copiando list3.txt para pasta cut (comando feio dentro da pasta raw-reads) > `cp list3.txt /home/jaquelinegaliardo/raw-reads/cut` > para juntar *forward* e *reverse* (comando feio dentro da pasta **raw-reads**) - **ATENCAO!!!** no formato dos arquivos (_R1_001.fastq / _R2_001.fastq) > `for x in $(<list3.txt); do /home/jaquelinegaliardo/FLASH-1.2.11-Linux-x86_64/flash "$x"_R1_001.fastq "$x"_R2_001.fastq -d $x -o $x; done` > para juntar *forward* e *reverse* (comando feio dentro da pasta **cut**) - **ATENCAO!!!** no formato dos arquivos (_1.fastq / _2.fastq) > `for x in $(<list3.txt); do /home/jaquelinegaliardo/FLASH-1.2.11-Linux-x86_64/flash "$x"_1.fastq "$x"_2.fastq -d $x -o $x; done` > criar pasta lixo > `mkdir lixo` > movendo alguns arquivos para a pasta lixo > `mv **/*hist lixo/` > `mv **/*histogram lixo/` > `mv **/*.notCombined_1.fastq lixo/` > `mv **/*.notCombined_2.fastq lixo/` > `rm -r lixo` > criar pasta (dentro da pasta cut) > `mkdir paired_reads` > seguir com esses comandos (dentro da pasta cut) > `mv *.fastq paired_reads/` > `mv paired_reads/ ../` > criar pasta (dentro da pasta cut) > `mkdir raw_reads` > fazer esse comando (dentro da pasta cut) > `mv **/*fastq raw_reads` > substutiir .extendedFrags.fastq por _R1_001.fastq ``` for f in *.extendedFrags.fastq; do mv -- "$f" "${f%.extendedFrags.fastq}_R1_001.fastq" done ``` Copiando amostras PRINSEQ + FLASH para o terminal pessoal ``` scp -r jaquelinegaliardo@access2.grid.unesp.br:/home/jaquelinegaliardo/raw-reads/cut/raw_reads . ``` > passar para o DRIVE > **a.** ativar o qiime > **b.** zipar as amostar da pasta **raw_reads** (que fica dentro da pasta cut) `gzip *.fastq` > **c.** fazer o comando a baixo, dentro da pasta cut ``` qiime tools import --type 'SampleData[SequencesWithQuality]' --input-path raw_reads/ --input-format CasavaOneEightSingleLanePerSampleDirFmt --output-path demux-single-end.qza ``` > criado > `Imported raw_reads/ as CasavaOneEightSingleLanePerSampleDirFmt to demux-single-end.qza` > **d.** preciso usar **forward** do prime utilizado no meu trabalho ``` qiime cutadapt trim-single --p-cores 7 --p-front TCGTCGGC --p-discard-untrimmed --output-dir primer_trimmed --i-demultiplexed-sequences demux-single-end.qza ``` > criado > `Saved SampleData[SequencesWithQuality] to: primer_trimmed/trimmed_sequences.qza` > **e.** filtros ``` qiime dada2 denoise-single --i-demultiplexed-seqs primer_trimmed/trimmed_sequences.qza --p-trunc-len 0 --p-trim-left 0 --p-trunc-q 3 --p-max-ee 2 --p-chimera-method consensus --p-pooling-method pseudo --p-min-fold-parent-over-abundance 10 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7 ``` > criado > `Saved FeatureTable[Frequency] to: asv-table.qza` > `Saved FeatureData[Sequence] to: rep-seqs-dada2.qza` > `Saved SampleData[DADA2Stats] to: dada_stat.qza` Dentro da pasta cut, fazer os seguintes comandos ``` qiime demux summarize --i-data demux-single-end.qza --output-dir demux_summarize ``` > criado `demux_summarize/visualization.qzv` ``` qiime tools export --input-path demux_summarize/visualization.qzv --output-path demux_summary ``` > criado `demux_summary` > **f.** fazer download do quality plot e stat.stv no terminal pessoal ![](https://i.imgur.com/ntgpa7i.png) O ideal e que os valores do **input numeric** tenham no minimo 6 casas decimais, antes do corte e juncao tinha de 4 a 5 casas e depois ficou com de 1 a 2 casas decimais. Para melhorar a qualidade vamos testar os filtros abaixo ``` qiime dada2 denoise-paired --i-demultiplexed-seqs demux-paired-end.qza --p-trim-left-f 0 --p-trim-left-r 0 --p-trunc-len-f 0 --p-trunc-len-r 0 --p-trunc-q 2 --p-max-ee-f 2 --p-max-ee-r 2 --p-chimera-method pooled --p-pooling-method pseudo --p-min-fold-parent-over-abundance 1 --o-representative-sequences rep-seqs-dada2.qza --o-table asv-table.qza --o-denoising-stats dada_stat --p-n-threads 7 ``` ### INFORMACOES PARA METODOLOGIA ![](https://i.imgur.com/7xwKFnB.jpg)