# h1 Aula 11/11![](https://i.imgur.com/ISSd8Px.png) Preciso dar o caminho da onde saiu os dados , e onde está o genoma que vai alinhar, la na utlima linha, que é o gtf e o fa. qdo tem um ./ significa que dentro da pasta que eu to to , é pra pegar na pasta ref o arquivo genome.fa Para saber se deu certo oalinhamento: ![](https://i.imgur.com/jNOy8bO.png) Pegou todos ids de rna, dps pegapra filtraros rna, e qdo filtra o rna, ele retorna uma lista de coordenada ondee esta esses rna, e usando o sort - u somente da primeira lista, eu consigo selecionar os cromossomos onde tá! É um sistema mais automatizado que ele explicou pra selecionar cada um Cufflink: programa que faz a montagem baseado em um genoma de referencia. gft-guide: vai ser usado como um guia multi read correct : p corridigir em relacao ao tamanho de base no alinhamento reads q mapeiam em mt local tem uma pontuaçao menor frag len mean - media e desvio padão do alinhamento e dp de 50 Isoforma expresso 10% a menos da isoforma original são eliminadas. min isoform tfraction deixar uns 20 p n gerar isoforma com valor baixo de expressao pre rna fraction - deixou o defoult 15 max lenght intron - checkMinMaxIntronSize.sh Ref/genome.gff ai o primeiro valor é o valor mininmo do intron e o ultimo o maximo. ai usa essa função p ver qual o maior valor e copia pro script. Esse valor pode ser aproximado. N precisa ser exato. Min intron lengt coloca a funcao tb, e ve que foi 127 e coloca. Ele aproximou era 9 mil e quebrado ele colcou 10 mil e 100 . Transfrag - seria uma nova isoforma. Ai tem o numero minimo de fragmentos. Over gang tolerance: max bundle lenght - tamanho maximo de uma coordenada trasncrito pra que seja considerado valido. ai deixa o default . Max bundle frags - maximo de fragamentos mapeado pra ser considerado como uma coisa valida, coordenada genomica mt mapeada pode significar erro, mas as vezes é so pq o gene é mt expresso. o default é 50mil ma pode aumentar p 999999 Trim avcgov theres - numero minimo requirido pra uma trimagem . tentativa de ajustar o 3' em relacao a cpbertura. o que tem no default n precisa nem colocar la, só muda o que quer q seja diferente. overlap radius: serve pra separar genes, se tem distancia de 50 sem cobertura ele considera q é o msm gene. copiou dnv o script e rodou ![](https://i.imgur.com/yxkXL0Z.png) Cuffmerge: funde as duas montagens pbtidas a partir de duas condicoes distintas para obter uma unica referenica. Primeiro cria um arquivo com todo gtf gerado, dps vai p linha de comando do cuffmerge Cuffmerge sera executado apenas uma vez, ele n sera colocado dentro do lopping. Como é feito uma vez considerando grep -w -f ./Ref/rnas.txt ./Ref/genome.gff \ | grep -w -P '\tRNA\t' | sed 's/^.*Parent=//' \ | sed 's/;.*$//' \ | sort -u > ./Ref/genes.txt Código para isoforma: = match completo com cadeia de intron c - identifcicou uma coordenada genica entro de outra cadeia genica j = potecialmente uma nova isoforma encontrada uniq-c conta qantas linhas tem e pra isso tem q ter o nsort ou sort antes. ![](https://i.imgur.com/T9UyeGK.png) grep'^>' Ref/genoma.fa grep p filtrar o que começa com o sinal de maior, e sed pra substituir com sinal de maior pnada e direcionar para o arquivo Heaviest: numero de reads ligadas nas arestas. Só é percorrida as arestas com maior peso. cp /usr/local/bioinfo/bioaat/rnaseq-ref.sh . cp rpkp - reads fpkm - fragmentos. Estamos tentando chegar na concentração de RNA molar relativa, dentro de cada amostra a média de RMC atraves dos genes, a rmc é uma constante e depende unicamente do numero de genes mapeados no expermento rna seq Considerando uma msm amostra se o gene n varia e mantem a msm concentração deve se aproximar a concentraçao relativa do gene. o RPKM n obedece isso, qdo soma todos pra todas as biblios tem um numero diferente pra esse valor total RPKM - contar o numero de reads nas amostras e dividir por 1 milhao p chegar no fator de escalonamento , dividindo