Relatório De Bioinformática

# Relatório De Bioinformática # ### Genoma referência ### Foi escolhido os genes de gallus gallus ID 9031 para seguir com a simulação. ![](https://i.imgur.com/T4tz53D.png) foi feito o download do genoma (gff e fasta) na pasta Refs Foram selecionados 6 genes do mesmo cromossoma e criados os arquivos de Abundance A e B :::info Abundance_A.txt NM_204821.1 0.50 NM_205152.2 0.05 NM_001001615.1 0.05 NM_001079714.2 0.25 NM_205435.1 0.15 NM_205513.1 0.00 Abundance_B.txt NM_204821.1 0.05 NM_205152.2 0.05 NM_001001615.1 0.05 NM_001079714.2 0.25 NM_205435.1 0.10 NM_205513.1 0.50 ::: ### Limpeza dos arquivos referências ### Criado o script cleanfasta.sh e executando para o genoma referência. ```javascript= ./cleanfasta.sh GCF_000002315.6_GRCg6a_genomic.fna > genome.fa ``` ajustando arquivos GFF ```javascript= fixNCBIgff.sh GCF_000003025.6_Sscrofa11.1_genomic.gff genome.gff ``` Fazendo testes com GFf ```javascript= gffread genome.gff -g genome.fa -T -o genome.gtf gffread genome.gff -g genome.fa -w transcriptome.fa gffread genome.gff -g genome.fa -y proteome.fa ``` ### Reduzindo tamanho do genoma ### utilizando os comandos para criar o small genome ```javascript= cut -f 1 /state/partition1/bernardo2/abundance_A.txt /state/partition1/bernardo2/abundance_B.txt | sort -u > rnas.txt grep -w -f ./rnas.txt genome.gff | cut -f 1 | sort -u > selected.txt pullseq -n selected.txt -i genome.fa > smallgenome.fa grep -w -f selected.txt genome.gtf > smallgenome.gtf ``` ### Construção de transcriptoma ### Utilizando o script sim.sh Quantidades de reads geradas. ![](https://i.imgur.com/nxSRrEc.png) ### Pré-Processamento ### Foi realizado o FastQC (pré),ATROPOS (insert), ATROPOS (adater),PrinSeq e FastQC (pós), utilizando o script preprocess3 e rnaseq-ref.sh. ```javascript= ./preprocess3.sh ./raw ./output ./refs/smallgenome.gtf ./refs/smallgenome.fa ``` ```javascript= ./rnaseq-ref.sh ./raw ./output ./refs/smallgenome.gtf ./refs/smallgenome.fa ``` * Checando pré processamento ```javascript= ls -dlh ./raw ./output ./refs/genome.gtf ./refs/genome.fa ``` ![](https://i.imgur.com/ZFuvp0x.png) ```javascript= ls -dlh ./raw/* ``` ![](https://i.imgur.com/bzOKwzS.png) ### Montagem "de novo" de transcriptoma ### Para realizar a montagem foi utilizado o script rnaseq-denovo.sh ```javascript= ./rnaseq-denovo.sh ./output/processed/prinseq ./output ``` em seguida foi executado o script rnaseq-ref-trinity. ```javascript= ./rnaseq-ref-trinity.sh ./output/star_out_final ./output ``` ### avaliando montagem ### * indexação do transcriptoma ```javascript= makeblastdb -title "RefTrans" \ -dbtype nucl \ -out RefTrans \ -in transcriptoma.fa \ > makebleastdb.log.out.txt \ 2> makeblastdb.log.err.txt ``` Gerou os arquivos **RefTrans.nhr** **RefTrans.nin** e **RefTrabs.nsq** ![](https://i.imgur.com/Fkzs6Gy.png) ### BLAST ### 1) Primeiro foi realizado para montagem com trinity de novo ```javascript= blastn -max_hsps 1 \ -max_target_seqs 1 \ -num_threads 8 \ -query ./output/trinity_assembled/Trinity.fasta \ -task blastn \ -db ./RefTrans \ -out ./Trinity_x_RefTrans.txt \ -evalue 1e-5 \ -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" \ > ./Trinity_x_RefTrans.log.out.txt \ 2> ./Trinity_x_RefTrans.log.err.txt ``` Visualizando os nomes das sequências query (qseqid) e subject (sseqid) HSPs de todos HITs obtidos: ```javascript= cut -f 1,2 ./Trinity_x_RefTrans.txt ``` Para ver quantos foram encontrados ```javascript= cut -f 2 ./Trinity_x_RefTrans.txt | sort | uniq -c ``` ![](https://i.imgur.com/Ps46Ia6.png) 2) Montagem com Trinity Genome Guided ```javascript= blastn -max_hsps 1 \ -max_target_seqs 1 \ -num_threads 8 \ -query ./output/trinity_GG_assembled/Trinity-GG.fasta \ -task blastn \ -db ./RefTrans \ -out ./Trinity-GG_x_RefTrans.txt \ -evalue 1e-5 \ -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" \ > ./Trinity-GG_x_RefTrans.log.out.txt \ 2> ./Trinity-GG_x_RefTrans.log.err.txt ``` ![](https://i.imgur.com/OSplCCn.png) ### Para estimar a abundância e encontrar os genes/isoformas diferencialmente expressos ### Para acessar o programa Trinity ```javascript= echo ${TRINITY_HOME} ${TRINITY_HOME}/util/align_and_estimate_abundance.pl ${TRINITY_HOME}/util/abundance_estimates_to_matrix.pl ``` Baixando o script ```javascript= wget https://github.com/dgpinheiro/bioinfoutilities/raw/master/run-DESeq2.R ``` executando ```javascript= ./rnaseq-trinity-abundance.sh ./output/renamed/ ./output/trinity_assembled/ ./output/ ``` * Resultado Foram submetidos 6 sequencias e encontradas as 6 ![](https://i.imgur.com/CbpchTt.png) ### Análises No RStudio ### Foi utilizado o script a seguir para rodar o HeatMap ![](https://i.imgur.com/4Q1TA5Q.png) 1) Para as amostras A o gene mais expresso foi TRINITY_DN2_c0_g1 e para as amostras B o gene TRINITY_DN5_c0_g1. 2) Os genes TRINITY_DN1_c0_g1 e TRINITY_DN4_c0_g1 estão agrupados ou seja quando um é expresso o outro também será expresso.