# Bioinformatica II: Análise de transcriptomas Aula 01/11/2019
Selecionar apenas um cromossomo na sequencia fasta:
`more genome.fa`
`grep '^>' genome.fa para selecionar inicio
seleciona os ID que vc quer ou não quer.
vim selecao.txt
comando: `pullseq -i genome.fa -n selecao.txt` > newgenome.fa
`grep '^>' newgenome.fa`
- Indexação: serve para encontrar mais rapido o que você procura.
- Não utilizar bowtie2 para sequencias de RNASeq, pois ele não faz alinhamento de sequencias com splicing. Ou seja, sequencias que atravessam os dois exons não são alinhadas (sobrepoe 2 exons parcialmente). Não alinham sequencias de modo descontinuo.
O bowtie 2 funciona para RNASeq, ele vai alinhar, por permite Gaps e mismateches, mais não permite alinhamentos descontinuos.
- É importante utilizar ferramentas de alinhamento proprios para sequencias de RNASeq pois assim, teremos alinhamento continuo, onde extensoes ocorrerão sem grandes penalidades como ocorre no bowtie2.
**-TopHat:** 1º fase: Mapeamento de reads no genoma de referencia utilizando o bowtie2.
Identificação e indexação de IUMS.
Identificação de sitios de splicing canonicos, obtendo as sequencias oriundas das junções dos exons.
2 fase: Mapeamento de IUMS que são reads não mapeadas no processo anterior.
No final dao as coordenadas com base no genoma.
O algoritmo reporta então todos alinhamentos com splice e constrói um arquivo com todas as junções.
Para ocorrer a extensão da sequencia após a seed se ligar, é necessário ter um minimo de bases de ambos os lados (quando a read atravessa 2 exons), por convenção são 8, mais vc pode alterar nos comandos.
Distancia de edição: quantidade de operações necessãrias para transformar uma sequencia na outra > Alinhamento: ocorre um conjunto de operações para transformar uma sequencia em outra: inserção, deleção, mismatch,gap, etc. Cada operação tem uma maior pontuação,sendo que a maior é a mais válida.
Importante: consultar genoma mais proximo já mapeado para identificar o tamanho minimo e max dos introns.
checkMinMaxIntronSize.sh
introntab.pl
Comando: `checkMinMaxIntronSize.sh genome.gff . 0.25 0.95`
` introntab.pl --format gff genome.gff .`
firststrand: primeira fita do cDNA é utilizada (transcriptase reversa);
secondstrand: segunda fita do cDNA é utilizada;
TopHAt e outros alinhadores: melhor passar um gtf do que gff (melhor reconhecimento), o gff é mais complexo.
Script: SAM_nameSorted_to_uniq_count_stats.pl
script dentro do pacote Trinity.
` /usr/local/bioinfo/trinityrnaseq-Trinity-v2.6.6/util/misc/SAM_nameSorted_to_uniq_count_stats.pl```
broad institute > explain flags
**Formato BED:** O formato BED é um formato de arquivo de texto usado para armazenar regiões genômicas como coordenadas e anotações associadas. Os dados são apresentados na forma de colunas separadas por espaços ou tabulações.
**BED tools:** Permitem executar tarefas comuns em genômica, tais como encontrar coordenadas de alinhamentos que possuem sobreposição.