owned this note
owned this note
Published
Linked with GitHub
# Relatório do projeto - Curso BioInfo FCAV-UNESP 2019
---
### (1) Baseado no artigo _"The Soil Microbiome Influences Grapevine-Associated Microbiota"_ (2015)
##### Iratxe Zarraonaindia, Sarah M. Owens, Pamela Weisenhorn, Kristin West, Jarrad Hampton-Marcell, Simon Lax, Nicholas A. Bokulich, David A. Mills, Gilles Martin, Safiyh Taghavi, Daniel van der Lelie, Jack A. Gilbert.
---
### (2) Banco de dados para comparação, cujo artigo publicado é _"Microbial Landscape of the Grapevine Endosphere in the Contextof Pierce’s Disease"_ (2017)
#### Elizabeth Deyett, M. Caroline Roper, Paul Ruegger, Jiue-In Yang, James Borneman, Philippe E. Rolshausen.
##### Organizando diretórios
mkdir data
mkdir data/fastq
prefetch - para baixar os meta-dados da referência (2) do GenBank (NCBI - SRA)
vim - para elaborar os scripts para baixar todos os arquivos no formato SRA de uma vez.
mv seqs get_sra.sh (renomeando o script)
chmod 777 get_sra.sh (alterando permissões sobre o script)
./get_sra.sh (executando o script)
O que está no script?
```{bash}
#!/bin/bash
prefetch SRR5170140
prefetch SRR5170139
prefetch SRR5170138
prefetch SRR5170137
prefetch SRR5170136
....
```
Com isso, a execução terá essa aparência:
```{bash}
2019-07-30T17:29:52 prefetch.2.9.3: 1) Downloading 'SRR5170140'...
2019-07-30T17:29:52 prefetch.2.9.3: Downloading via https...
2019-07-30T17:29:57 prefetch.2.9.3: 1) 'SRR5170140' was downloaded successfully
2019-07-30T17:29:57 prefetch.2.9.3: 'SRR5170140' has 0 unresolved dependencies
```
Ao final, serão criados alguns diretórios para acessar os arquivos .sra:
```
./ncbi/public/sra
```
Copiamos os arquivos para o diretório do servidor:
```
scp -r ./sra/ jaferrarezi@host102092.fcav.unesp.br:/data/cvbioinfo/alunos/g2
```
#### Pré-processamento
- Trimagem dos arquivos de sequenciamento no usearch
**Passo 02A do Protocolo Microbiômica (Rafael - HackMD)**
```{bash}
./scripts/usearch11 \
-fastx_info ./dados/brutos/merged.fq
-output ./analise/E01_A_fastx_info/usearch11_vitis_vinifera.txt
```
###### File size 2.2G, 3.8M seqs, 982.4M letters and quals
###### Lengths min 260, lo_quartile 260, median 260, hi_quartile 260, max 260
###### Letter freqs G 33.3%, A 28.6%, T 19.1%, C 19.0%
###### 0% masked (lower-case)
###### ASCII_BASE=33
###### EE mean 0.5; min 0.0, lo_quartile 0.0, median 0.0, hi_quartile 0.1, max 21.1
**Passo 02B:**
```{bash}
./scripts/usearch11 \
-fastq_eestats2 ./dados/brutos/merged.fq \
-length_cutoffs 150,300,20 \
-ee_cutoffs 1.0,2.0,3.0
```
###### 00:00 38Mb CPU has 56 cores, defaulting to 10 threads
###### 00:40 123Mb 100.0% Reading reads
###### 3778602 reads, max len 260, avg 260.0
#### Length MaxEE 0.20 MaxEE 0.50 MaxEE 1.00 MaxEE 2.00
---
150 3354415(88.8%) 3529861(93.4%) 3615012(95.7%) 3668943(97.1%)
170 3323899(88.0%) 3509300(92.9%) 3600473(95.3%) 3660083(96.9%)
190 3285737(87.0%) 3481887(92.1%) 3580531(94.8%) 3649232(96.6%)
210 3241003(85.8%) 3444677(91.2%) 3551714(94.0%) 3632636(96.1%)
230 3188491(84.4%) 3405675(90.1%) 3521664(93.2%) 3613794(95.6%)
250 3096553(81.9%) 3353904( 88.8%) 3484820(92.2%) 3590207(95.0%)
**Passo 02C:**
Precisamos verificar na literatura e/ou outras fontes na internet sobre as sequências dos primers utilizados, referentes a quais regiões e qual a tecnologia de sequenciamento.
Para o conjunto data2, foi criado um arquivo _testeoligos.txt_ com as seguintes sequências:
>806R_fwd
GGACTACNVGGGTWTCTAA
>515F_fwd
GTGYCAGCMGCCGCGGTAA
>926R_rev
CCGYCAATTYMTTTRAGTTT
```{bash}
./scripts/usearch11 \
-search_oligodb ./dados/brutos/merged.fq \
-db ./dados/oligos/testeoligos.txt \
-strand both \
-userout ./analise/E01_C_search_oligodb/out_oligos_vitis_vinifera.txt \
-userfields query+target+qstrand+diffs+tlo+thi+trowdots
./scripts/usearch11 \
-fastx_truncate ./analise/E01_A_fastx_info/merged.fq \
-trunclen ${240} \
-stripleft ${19} \
-fastqout ./analise/E03_trimming/trimmed.fq
./scripts/usearch11 \
-orient ./analise/E03_trimming/trimmed.fq \
-db ./dados/referencias/rdp.database.udb \
-fastqout ./analise/E04_orient/oriented.fq
./scripts/usearch11 \
-fastx_uniques ./analise/E04_orient/oriented.fq \
-fastaout ./analise/E06_derrep/desrep.fa \
-sizeout \
-relabel Uniq
./scripts/usearch11 \
-cluster_otus ./analise/E06_derrep/desrep.fa \
-otus ./analise/E08_pick_otus/otus.fa \
-relabel Otu
./scripts/usearch11 \
-otutab ./analise/E04_orient/oriented.fq \
-id 0.97 \
-otus ./analise/E08_pick_otus/otus.fa \
-otutabout ./analise/E09_otu_tables/01_otutab.tsv \
-mapout ./analise/E09_otu_tables/map_out.tsv
./scripts/usearch11 \
-sintax ./analise/E08_pick_otus/otus.fa \
-db ./dados/referencias/rdp.database.udb \
-tabbedout ./analise/E10_sintax_taxonomy/annot.txt \
-strand both \
-sintax_cutoff 0.9
export MASTER=$(pwd)
cp ./analise/E10_sintax_taxonomy/annot.txt \
./analise/E10_sintax_taxonomy/parse.txt
sed -i 's/k:Bacteria/d:Bacteria/g' ./analises/E10_sintax_taxonomy/parse.txt
sed -i 's/"//g' ./analise/E10_sintax_taxonomy/parse.txt
./scripts/parseSintax.sh \
./analise/E10_sintax_taxonomy/parse.txt \
bacteria \
./analise/E12_microbiome-analyst/03_taxonomia.txt
sed 's/OTU ID/NAME/g' ./analise/E09_otu_tables/otutab.tsv > \
./analise/E12_microbiome-analyst/01_otu_table.txt
./scripts/usearch11 \
-calc_distmx ./analise/E08_pick_otus/otus.fa \
-tabbedout ./analise/E11_distance_tree/otus_mx.txt \
-maxdist 0.2 \
-termdist 0.3
./scripts/usearch11 \
-cluster_aggd ./analise/E11_distance_tree/otus_mx.txt \
-treeout ./analises/E12_microbiome-analyst/04_tree.nwk \
-clusterout ./analises/E11_distance_tree/clusters.txt \
-id 0.80 \
-linkage min
Tabela de metadados: baixados diretamente do NCBI, associada ao estudo em questão.
---
```
### (3). Banco de dados para comparação, cujo artigo publicado é _"Grapevine rootstocks shape underground bacterial microbiome and networking but not potential functionality."_ (2018)
#### Baixando arquivos SRR do NCBI:
Baixamos os arquivos no site como Acession List (srr_list.txt)
Para baixar os arquivos fastq, rodamos o script:
```bash
for line in $(cat srr_list.txt); do
fastq-dump --split-3 ${line}; done
```