# h1 Aula 11/11
Preciso dar o caminho da onde saiu os dados , e onde está o genoma que vai alinhar, la na utlima linha, que é o gtf e o fa.
qdo tem um ./ significa que dentro da pasta que eu to to , é pra pegar na pasta ref o arquivo genome.fa
Para saber se deu certo oalinhamento:

Pegou todos ids de rna, dps pegapra filtraros rna, e qdo filtra o rna, ele retorna uma lista de coordenada ondee esta esses rna, e usando o sort - u somente da primeira lista, eu consigo selecionar os cromossomos onde tá!
É um sistema mais automatizado que ele explicou pra selecionar cada um
Cufflink: programa que faz a montagem baseado em um genoma de referencia.
gft-guide: vai ser usado como um guia
multi read correct : p corridigir em relacao ao tamanho de base no alinhamento
reads q mapeiam em mt local tem uma pontuaçao menor
frag len mean - media e desvio padão do alinhamento
e dp de 50
Isoforma expresso 10% a menos da isoforma original são eliminadas.
min isoform tfraction deixar uns 20 p n gerar isoforma com valor baixo de expressao
pre rna fraction - deixou o defoult 15
max lenght intron - checkMinMaxIntronSize.sh Ref/genome.gff
ai o primeiro valor é o valor mininmo do intron e o ultimo o maximo. ai usa essa função p ver qual o maior valor e copia pro script. Esse valor pode ser aproximado. N precisa ser exato.
Min intron lengt coloca a funcao tb, e ve que foi 127 e coloca. Ele aproximou era 9 mil e quebrado ele colcou 10 mil e 100 .
Transfrag - seria uma nova isoforma. Ai tem o numero minimo de fragmentos.
Over gang tolerance:
max bundle lenght - tamanho maximo de uma coordenada trasncrito pra que seja considerado valido. ai deixa o default .
Max bundle frags - maximo de fragamentos mapeado pra ser considerado como uma coisa valida, coordenada genomica mt mapeada pode significar erro, mas as vezes é so pq o gene é mt expresso. o default é 50mil ma pode aumentar p 999999
Trim avcgov theres - numero minimo requirido pra uma trimagem . tentativa de ajustar o 3' em relacao a cpbertura.
o que tem no default n precisa nem colocar la, só muda o que quer q seja diferente.
overlap radius: serve pra separar genes, se tem distancia de 50 sem cobertura ele considera q é o msm gene.
copiou dnv o script e rodou

Cuffmerge: funde as duas montagens pbtidas a partir de duas condicoes distintas para obter uma unica referenica.
Primeiro cria um arquivo com todo gtf gerado, dps vai p linha de comando do cuffmerge
Cuffmerge sera executado apenas uma vez, ele n sera colocado dentro do lopping. Como é feito uma vez considerando
grep -w -f ./Ref/rnas.txt ./Ref/genome.gff \ | grep -w -P '\tRNA\t' | sed 's/^.*Parent=//' \ | sed 's/;.*$//' \ | sort -u > ./Ref/genes.txt
Código para isoforma:
= match completo com cadeia de intron
c - identifcicou uma coordenada genica entro de outra cadeia genica
j = potecialmente uma nova isoforma encontrada
uniq-c conta qantas linhas tem e pra isso tem q ter o nsort ou sort antes.

grep'^>' Ref/genoma.fa
grep p filtrar o que começa com o sinal de maior, e sed pra substituir com sinal de maior pnada e direcionar para o arquivo
Heaviest: numero de reads ligadas nas arestas. Só é percorrida as arestas com maior peso.
cp /usr/local/bioinfo/bioaat/rnaseq-ref.sh .
cp
rpkp - reads
fpkm - fragmentos.
Estamos tentando chegar na concentração de RNA molar relativa, dentro de cada amostra a média de RMC atraves dos genes, a rmc é uma constante e depende unicamente do numero de genes mapeados no expermento rna seq
Considerando uma msm amostra se o gene n varia e mantem a msm concentração deve se aproximar a concentraçao relativa do gene. o RPKM n obedece isso, qdo soma todos pra todas as biblios tem um numero diferente pra esse valor total
RPKM - contar o numero de reads nas amostras e dividir por 1 milhao p chegar no fator de escalonamento , dividindo