h1 1 de novembro

# h1 1 de novembro COM OCOMANDO grepe ' Selecionar algum cromossomo da sequencia fasta digita more genome.fa Da um grep '^>' genome.fa pra selecionar o inicio Seleciona o ID que quer ou não com a funçao vim vim selecao.txt copia os ID com sinal de maior, só com os ID que quero e que não quero. pullseq- i genome.fa -n selecao.txt > newgenome.fa Se quero complementar dessa lista eu deixo -e ao inves de -i. Pq n usaria bowtie 2 pra alinhamento de sequencia do genoma . Qdo tem RNA seq tem reads que podem ser extraidas das junções entre exons. ENtão n usar bowtie 2 pq alguns fragmentos cai exatamente dentro do exon e outros nao, tem algmas sequencias q atravessam exon 1 e 2, atravessam a junççao exon exon. o bowtie 2 n faz alinhamento com splicing, alinhamento descontinuo. Mas ele permite gap, ql a diferença de gap e alinhamento com splicing? gap para bowwtie 2 é pequeno, splicing pode ser acima de mil bases. Bow tie 2 n alinha sequencia descontinua, que se sobrepoe. Bowtie2 funciona para RNAseq, ele vai alinhar pois permite gaps e mismatchs mas n permite alinhamento descontinuo. O TOPHAT funciona com alinhamento somente do tipo bowtie. Inclusive ele usa o bowtie2. Porem quais read seriam alinhadas? somente as que estao em exons diferentes, n sobrepostas. Primeira fase do tophat: mapeamento de reads no genoma referencia usando bowtie2. Identificação e indexaçao de IUMS. Identificação de sitios de splicing canonicos obtendoo sequencias oriundos das junções dos exons. 2fase: mapeamento de IUMWS que são reads nao mapeadas no processo anterior. Alinhamento das IUMS nas junçoes pega uma porção direita uma esquerda e une. No final as coordenadas são com base do genoma. no tophat e star ha a possibildiade de usar um arquivo gtf. O algoritimo reporta então toodos alinhamentos com splice e constroi um arquivo com todas as junçoes. Alinhemaneto: transfirmar uma sequencia de caracter em outra considerando inserção deleçao mismaches DIstancia de edição: qtde de operacoes necessarias pra transformar uma sequencia em outra. Cada operação mismatch gap recebe uma pontuação, sendo que a maior é a mais valida. Qto menor entao as operacoes é melhor. è menos impactamente ter um mismatche do que um gap Importante: consultar genoma mais proximo já mapeado para identificar o tamanho minimo e maximo dos introns. comando: checkMinMaxIntronsize.sh genome.gff Ref introntab.pl --forma gff genome.gff firststrand primeira fita de cdna é usado transcriptase reversa Secondstrand: seg fitade cdna utilizada tophat melhor passar um gtf do que um gff ( melhor reconhecimento) o gff é mais complexo.. Tem que rodar o comando fix novamente fixNCBIgff.sh genome.gff script: SAM_nomeSorted_to_uniq_count_stats.pl samtools sort -n star_out/Aligned.out.bam >Aligned samtools faidx genome.fa NW_023333.1:1-10 >NW_023333.1 4 coluna da informação do inicio do alinhamento, isso na explicaçao doslide do formato sam. read alinhamento unico - maior score. samtools view - q com score minimo, ele filtra todos os score acima de 10 . COmo saber se foi feito em pares de forma apropriada. O que no sam tools define se é de forma aproviada. broad institute > explain flags Talvez quero ser mais criterioso e usar alinhamentos unicos Quais parametros posso usar para recuperar os arquivos q n foram alinhados Formado BEDtools bam - armazena informacoes de alinhamento bed tools permitem executar tarefas comuns em genomica tais quais como encontrar coordenadas de alinhamentos que possuem sobreposição Montagem: reconstrução aproximada das sequencias alvos em suas formas originais. Profundidade de sequenciamento: numer ode reads obtidas.