# Bioinformatica II: Análise de transcriptomas Aula 01/11/2019 Selecionar apenas um cromossomo na sequencia fasta: `more genome.fa` `grep '^>' genome.fa para selecionar inicio seleciona os ID que vc quer ou não quer. vim selecao.txt comando: `pullseq -i genome.fa -n selecao.txt` > newgenome.fa `grep '^>' newgenome.fa` - Indexação: serve para encontrar mais rapido o que você procura. - Não utilizar bowtie2 para sequencias de RNASeq, pois ele não faz alinhamento de sequencias com splicing. Ou seja, sequencias que atravessam os dois exons não são alinhadas (sobrepoe 2 exons parcialmente). Não alinham sequencias de modo descontinuo. O bowtie 2 funciona para RNASeq, ele vai alinhar, por permite Gaps e mismateches, mais não permite alinhamentos descontinuos. - É importante utilizar ferramentas de alinhamento proprios para sequencias de RNASeq pois assim, teremos alinhamento continuo, onde extensoes ocorrerão sem grandes penalidades como ocorre no bowtie2. **-TopHat:** 1º fase: Mapeamento de reads no genoma de referencia utilizando o bowtie2. Identificação e indexação de IUMS. Identificação de sitios de splicing canonicos, obtendo as sequencias oriundas das junções dos exons. 2 fase: Mapeamento de IUMS que são reads não mapeadas no processo anterior. No final dao as coordenadas com base no genoma. O algoritmo reporta então todos alinhamentos com splice e constrói um arquivo com todas as junções. Para ocorrer a extensão da sequencia após a seed se ligar, é necessário ter um minimo de bases de ambos os lados (quando a read atravessa 2 exons), por convenção são 8, mais vc pode alterar nos comandos. Distancia de edição: quantidade de operações necessãrias para transformar uma sequencia na outra > Alinhamento: ocorre um conjunto de operações para transformar uma sequencia em outra: inserção, deleção, mismatch,gap, etc. Cada operação tem uma maior pontuação,sendo que a maior é a mais válida. Importante: consultar genoma mais proximo já mapeado para identificar o tamanho minimo e max dos introns. checkMinMaxIntronSize.sh introntab.pl Comando: `checkMinMaxIntronSize.sh genome.gff . 0.25 0.95` ` introntab.pl --format gff genome.gff .` firststrand: primeira fita do cDNA é utilizada (transcriptase reversa); secondstrand: segunda fita do cDNA é utilizada; TopHAt e outros alinhadores: melhor passar um gtf do que gff (melhor reconhecimento), o gff é mais complexo. Script: SAM_nameSorted_to_uniq_count_stats.pl script dentro do pacote Trinity. ` /usr/local/bioinfo/trinityrnaseq-Trinity-v2.6.6/util/misc/SAM_nameSorted_to_uniq_count_stats.pl``` broad institute > explain flags **Formato BED:** O formato BED é um formato de arquivo de texto usado para armazenar regiões genômicas como coordenadas e anotações associadas. Os dados são apresentados na forma de colunas separadas por espaços ou tabulações. **BED tools:** Permitem executar tarefas comuns em genômica, tais como encontrar coordenadas de alinhamentos que possuem sobreposição.