Relatório do projeto - Curso BioInfo FCAV-UNESP

# Relatório do projeto - Curso BioInfo FCAV-UNESP 2019 --- ### (1) Baseado no artigo _"The Soil Microbiome Influences Grapevine-Associated Microbiota"_ (2015) ##### Iratxe Zarraonaindia, Sarah M. Owens, Pamela Weisenhorn, Kristin West, Jarrad Hampton-Marcell, Simon Lax, Nicholas A. Bokulich, David A. Mills, Gilles Martin, Safiyh Taghavi, Daniel van der Lelie, Jack A. Gilbert. --- ### (2) Banco de dados para comparação, cujo artigo publicado é _"Microbial Landscape of the Grapevine Endosphere in the Contextof Pierce’s Disease"_ (2017) #### Elizabeth Deyett, M. Caroline Roper, Paul Ruegger, Jiue-In Yang, James Borneman, Philippe E. Rolshausen. ##### Organizando diretórios mkdir data mkdir data/fastq prefetch - para baixar os meta-dados da referência (2) do GenBank (NCBI - SRA) vim - para elaborar os scripts para baixar todos os arquivos no formato SRA de uma vez. mv seqs get_sra.sh (renomeando o script) chmod 777 get_sra.sh (alterando permissões sobre o script) ./get_sra.sh (executando o script) O que está no script? ```{bash} #!/bin/bash prefetch SRR5170140 prefetch SRR5170139 prefetch SRR5170138 prefetch SRR5170137 prefetch SRR5170136 .... ``` Com isso, a execução terá essa aparência: ```{bash} 2019-07-30T17:29:52 prefetch.2.9.3: 1) Downloading 'SRR5170140'... 2019-07-30T17:29:52 prefetch.2.9.3: Downloading via https... 2019-07-30T17:29:57 prefetch.2.9.3: 1) 'SRR5170140' was downloaded successfully 2019-07-30T17:29:57 prefetch.2.9.3: 'SRR5170140' has 0 unresolved dependencies ``` Ao final, serão criados alguns diretórios para acessar os arquivos .sra: ``` ./ncbi/public/sra ``` Copiamos os arquivos para o diretório do servidor: ``` scp -r ./sra/ jaferrarezi@host102092.fcav.unesp.br:/data/cvbioinfo/alunos/g2 ``` #### Pré-processamento - Trimagem dos arquivos de sequenciamento no usearch **Passo 02A do Protocolo Microbiômica (Rafael - HackMD)** ```{bash} ./scripts/usearch11 \ -fastx_info ./dados/brutos/merged.fq -output ./analise/E01_A_fastx_info/usearch11_vitis_vinifera.txt ``` ###### File size 2.2G, 3.8M seqs, 982.4M letters and quals ###### Lengths min 260, lo_quartile 260, median 260, hi_quartile 260, max 260 ###### Letter freqs G 33.3%, A 28.6%, T 19.1%, C 19.0% ###### 0% masked (lower-case) ###### ASCII_BASE=33 ###### EE mean 0.5; min 0.0, lo_quartile 0.0, median 0.0, hi_quartile 0.1, max 21.1 **Passo 02B:** ```{bash} ./scripts/usearch11 \ -fastq_eestats2 ./dados/brutos/merged.fq \ -length_cutoffs 150,300,20 \ -ee_cutoffs 1.0,2.0,3.0 ``` ###### 00:00 38Mb CPU has 56 cores, defaulting to 10 threads ###### 00:40 123Mb 100.0% Reading reads ###### 3778602 reads, max len 260, avg 260.0 #### Length MaxEE 0.20 MaxEE 0.50 MaxEE 1.00 MaxEE 2.00 --- 150 3354415(88.8%) 3529861(93.4%) 3615012(95.7%) 3668943(97.1%) 170 3323899(88.0%) 3509300(92.9%) 3600473(95.3%) 3660083(96.9%) 190 3285737(87.0%) 3481887(92.1%) 3580531(94.8%) 3649232(96.6%) 210 3241003(85.8%) 3444677(91.2%) 3551714(94.0%) 3632636(96.1%) 230 3188491(84.4%) 3405675(90.1%) 3521664(93.2%) 3613794(95.6%) 250 3096553(81.9%) 3353904( 88.8%) 3484820(92.2%) 3590207(95.0%) **Passo 02C:** Precisamos verificar na literatura e/ou outras fontes na internet sobre as sequências dos primers utilizados, referentes a quais regiões e qual a tecnologia de sequenciamento. Para o conjunto data2, foi criado um arquivo _testeoligos.txt_ com as seguintes sequências: >806R_fwd GGACTACNVGGGTWTCTAA >515F_fwd GTGYCAGCMGCCGCGGTAA >926R_rev CCGYCAATTYMTTTRAGTTT ```{bash} ./scripts/usearch11 \ -search_oligodb ./dados/brutos/merged.fq \ -db ./dados/oligos/testeoligos.txt \ -strand both \ -userout ./analise/E01_C_search_oligodb/out_oligos_vitis_vinifera.txt \ -userfields query+target+qstrand+diffs+tlo+thi+trowdots ./scripts/usearch11 \ -fastx_truncate ./analise/E01_A_fastx_info/merged.fq \ -trunclen ${240} \ -stripleft ${19} \ -fastqout ./analise/E03_trimming/trimmed.fq ./scripts/usearch11 \ -orient ./analise/E03_trimming/trimmed.fq \ -db ./dados/referencias/rdp.database.udb \ -fastqout ./analise/E04_orient/oriented.fq ./scripts/usearch11 \ -fastx_uniques ./analise/E04_orient/oriented.fq \ -fastaout ./analise/E06_derrep/desrep.fa \ -sizeout \ -relabel Uniq ./scripts/usearch11 \ -cluster_otus ./analise/E06_derrep/desrep.fa \ -otus ./analise/E08_pick_otus/otus.fa \ -relabel Otu ./scripts/usearch11 \ -otutab ./analise/E04_orient/oriented.fq \ -id 0.97 \ -otus ./analise/E08_pick_otus/otus.fa \ -otutabout ./analise/E09_otu_tables/01_otutab.tsv \ -mapout ./analise/E09_otu_tables/map_out.tsv ./scripts/usearch11 \ -sintax ./analise/E08_pick_otus/otus.fa \ -db ./dados/referencias/rdp.database.udb \ -tabbedout ./analise/E10_sintax_taxonomy/annot.txt \ -strand both \ -sintax_cutoff 0.9 export MASTER=$(pwd) cp ./analise/E10_sintax_taxonomy/annot.txt \ ./analise/E10_sintax_taxonomy/parse.txt sed -i 's/k:Bacteria/d:Bacteria/g' ./analises/E10_sintax_taxonomy/parse.txt sed -i 's/"//g' ./analise/E10_sintax_taxonomy/parse.txt ./scripts/parseSintax.sh \ ./analise/E10_sintax_taxonomy/parse.txt \ bacteria \ ./analise/E12_microbiome-analyst/03_taxonomia.txt sed 's/OTU ID/NAME/g' ./analise/E09_otu_tables/otutab.tsv > \ ./analise/E12_microbiome-analyst/01_otu_table.txt ./scripts/usearch11 \ -calc_distmx ./analise/E08_pick_otus/otus.fa \ -tabbedout ./analise/E11_distance_tree/otus_mx.txt \ -maxdist 0.2 \ -termdist 0.3 ./scripts/usearch11 \ -cluster_aggd ./analise/E11_distance_tree/otus_mx.txt \ -treeout ./analises/E12_microbiome-analyst/04_tree.nwk \ -clusterout ./analises/E11_distance_tree/clusters.txt \ -id 0.80 \ -linkage min Tabela de metadados: baixados diretamente do NCBI, associada ao estudo em questão. --- ``` ### (3). Banco de dados para comparação, cujo artigo publicado é _"Grapevine rootstocks shape underground bacterial microbiome and networking but not potential functionality."_ (2018) #### Baixando arquivos SRR do NCBI: Baixamos os arquivos no site como Acession List (srr_list.txt) Para baixar os arquivos fastq, rodamos o script: ```bash for line in $(cat srr_list.txt); do fastq-dump --split-3 ${line}; done ```

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.