# h1 1 de novembro
COM OCOMANDO grepe '
Selecionar algum cromossomo da sequencia fasta
digita more genome.fa
Da um grep '^>' genome.fa pra selecionar o inicio
Seleciona o ID que quer ou não com a funçao vim
vim selecao.txt
copia os ID com sinal de maior, só com os ID que quero e que não quero.
pullseq- i genome.fa -n selecao.txt > newgenome.fa
Se quero complementar dessa lista eu deixo -e ao inves de -i.
Pq n usaria bowtie 2 pra alinhamento de sequencia do genoma . Qdo tem RNA seq tem reads que podem ser extraidas das junções entre exons. ENtão n usar bowtie 2 pq alguns fragmentos cai exatamente dentro do exon e outros nao, tem algmas sequencias q atravessam exon 1 e 2, atravessam a junççao exon exon.
o bowtie 2 n faz alinhamento com splicing, alinhamento descontinuo. Mas ele permite gap, ql a diferença de gap e alinhamento com splicing? gap para bowwtie 2 é pequeno, splicing pode ser acima de mil bases. Bow tie 2 n alinha sequencia descontinua, que se sobrepoe.
Bowtie2 funciona para RNAseq, ele vai alinhar pois permite gaps e mismatchs mas n permite alinhamento descontinuo.
O TOPHAT funciona com alinhamento somente do tipo bowtie. Inclusive ele usa o bowtie2. Porem quais read seriam alinhadas? somente as que estao em exons diferentes, n sobrepostas.
Primeira fase do tophat: mapeamento de reads no genoma referencia usando bowtie2. Identificação e indexaçao de IUMS.
Identificação de sitios de splicing canonicos obtendoo sequencias oriundos das junções dos exons.
2fase: mapeamento de IUMWS que são reads nao mapeadas no processo anterior.
Alinhamento das IUMS nas junçoes pega uma porção direita uma esquerda e une. No final as coordenadas são com base do genoma.
no tophat e star ha a possibildiade de usar um arquivo gtf.
O algoritimo reporta então toodos alinhamentos com splice e constroi um arquivo com todas as junçoes.
Alinhemaneto: transfirmar uma sequencia de caracter em outra considerando inserção deleçao mismaches
DIstancia de edição: qtde de operacoes necessarias pra transformar uma sequencia em outra.
Cada operação mismatch gap recebe uma pontuação, sendo que a maior é a mais valida.
Qto menor entao as operacoes é melhor.
è menos impactamente ter um mismatche do que um gap
Importante: consultar genoma mais proximo já mapeado para identificar o tamanho minimo e maximo dos introns.
comando: checkMinMaxIntronsize.sh genome.gff Ref
introntab.pl --forma gff genome.gff
firststrand primeira fita de cdna é usado transcriptase reversa
Secondstrand: seg fitade cdna utilizada
tophat melhor passar um gtf do que um gff ( melhor reconhecimento) o gff é mais complexo..
Tem que rodar o comando fix novamente
fixNCBIgff.sh genome.gff
script: SAM_nomeSorted_to_uniq_count_stats.pl
samtools sort -n star_out/Aligned.out.bam >Aligned
samtools faidx genome.fa NW_023333.1:1-10 >NW_023333.1
4 coluna da informação do inicio do alinhamento, isso na explicaçao doslide do formato sam.
read alinhamento unico - maior score.
samtools view - q com score minimo, ele filtra todos os score acima de 10 .
COmo saber se foi feito em pares de forma apropriada. O que no sam tools define se é de forma aproviada.
broad institute > explain flags
Talvez quero ser mais criterioso e usar alinhamentos unicos
Quais parametros posso usar para recuperar os arquivos q n foram alinhados
Formado BEDtools
bam - armazena informacoes de alinhamento
bed tools permitem executar tarefas comuns em genomica tais quais como encontrar coordenadas de alinhamentos que possuem sobreposição
Montagem: reconstrução aproximada das sequencias alvos em suas formas originais.
Profundidade de sequenciamento: numer ode reads obtidas.