# h1Aula 21/10 Segunda
Precisa do arquivo fast e gmm
Diretório cd /state /partition1/
Como conecta no hammer é a porta 22 mesmo.
Se fosse usar a porta ssh – p 2221 hammer.fcav.unesp.br
Dh – vh mostra quanto de espaço tem disponível no sistema; faz o gerenciamento. E tbm o diretório q ele esta montado .
Então por ex se o que eu criei está no sim coloco cd sim e dps ls pra saer o que tem dentro da pasta.
Sim -> meu login > home > e state. Então pra eu ir voltando coloco cd .. varias vezs até sair do meu home echegar onde ta a pasta state
Cd partition1 – pra estar dentro dessa pasta partitiion1 onde eu vou criar o meu diretório
Agora crio o diretório dentro dessa pasta mkdir chamei de gfrezarim
Ncbi digita o nome bos tauruso, muda pra taxonomia, o que a gente acessa é o genoma do lado direito q fica numa tabela
Ai eu copio o genoma que fica em cima do lado esquerdo, copia o link onde ta escrito genome. E o GFF
Ref – onde coloca as referencias.
Então fui para o meu home, criei uma pagina chamada ref com mkdir e coloquei wget espaço e colei o link
Aqui embaixo movi o arquivo para a past Ref que deveria estar dentro de partição 1 , fizemos errado
[gfrezarim@hammer /]$ mv home/gfrezarim/Ref/GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz state/partition1/gfrezarim/Ref/
[gfrezarim@hammer /]$
[gfrezarim@hammer /]$ cd s
sbin/ selinux/ share/ srv/ state/ sys/
[gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref/
[gfrezarim@hammer Ref]$ ls
GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz #confirmei q tinha movido o arquivo
[gfrezarim@hammer Ref]$ cd ..
[gfrezarim@hammer gfrezarim]$ cd ..
[gfrezarim@hammer partition1]$ cd ..
[gfrezarim@hammer state]$ cd ..
[gfrezarim@hammer /]$ mv home/gfrezarim/Ref/GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz state/partition1/gfrezarim/Ref/
[gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref/
[gfrezarim@hammer Ref]$ ls
GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz
GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz
[gfrezarim@hammer Ref]$
Porque sequenciar transcriptoma?
Mantem o foco da epesquisa nas funções genicas do genoma. Acelera o processo de anotação genômica descoberta de novos genes e modelos gênicos .
O transcritpoma mapeado contra o genoma permite identificar regiões 5’ 3’ e tbm sítios de splicing.
Auxilia na identificação de eventos de processamento altrativo de transcritos em tecidos ou condições biológicas espeficias.
RNA seq é o sequenciamento abrangente do transcriptoma, utilizando a tecnologia shoutgun que fragamenta toda a molécula pra dps sequenciar.
Não é necessário realizar replicas técnicas pq trem alta correlação. Tem acurácia alta.
EM regiões intergenica as reads podem ser contaminação, novos genes.
Intron – algum transcrito primário, seeria mais raro, ou algum intron q n foi degradado.
Cobertura e profundidade:
Profundidade qto ta sequenciando. Qto mais mais profundo.
Cobertura: quatas vezes estou amostrando aquela msm base em média. As bases de todo genoma, transcriptoma.
Sequencia unicamente mapeada: programa de alinhamento detecta que aquela sequencia foi mapeada em certo local apenas e em nenhum outro local.[
Como detectar qto tenho q sequenciar. Depende da questão biológica que quer q seja respondida, são genes mais expressos ou com expressão mais baixo.
Por ex fatores de transcrição n precisa trer mt expresssao . Entao se o objetivo é isso, genes de transcrição é necessário um sequenciamento mais profundo.
Qdo fala profundidade de 20x é que aquela base foi amostrada 20x em media.
Qdp é alinhada com o genoma, a cauda poli A n vai se alinhar pq ela écolocada após a transcrição. Ela pode servir para orientação. Se identifico reads com caractreristicas de n tem mapeamento do genoma e a partir desse local onde ela n tem mapeamento tem adenina. Esta indifcando um sitio de poli adenilação
Genoma novo sem predição – utilizar sequenciamento direcional ou de sequencia especifica.
Regioes com sobreposições dos exons podem ser diferenciadas. Isso ajuda diferenciar um gene de outro.
Seqnuenciamento pode ser single end apenas uma read é feita. Ou paired end
Metodo de ligação para sequenciamento fita espefifica ilumina: por ex tem um RNA, em azul fica o adaptador do tipo 3’ , que se liga a uma extremidade esse adaptador tem um 3’ bloqueado q n permite a ligação de novos adaptadores .
Também tem a ligação do adaptador 5’ q tb tem obloqueio. Aí ocorre a transcrição reversaa partir de uma molécula que tem uma cauda verde q é uma parte única do adaptador que se liga . ele é como se fosse um primer e faz com q seja sequenciado essa primeira fita de cdna.
Após isso tem q fazer a transcrição da segunda fita que é feita do outro lado , tbmtem uma cauda q n tem complementariedade cm outras bases mas tem com o adaptador.
Ai ocorre o processso de pcr que amplifica esse material até ter a construção de um tipo que fica um adaptador de um lado e do outro. O bloqueio tbm permite que o adaptador se ligue do lado errado e que n ocorra a amplificação.
Nesse método n tem tratamento pra remover o RNA, mas toda pcr que ocorre a quantidade de uracila vai ser pouca.
Ideia geral: um adpator espeficio pra 5’ w outro pra 3’.
Existe outro método q chama dUTP . Aqui n é feito primeiro o adaptador no 3’ dps 5’ n tem o bloqueio. Esses adpatadors são em Y, ele n tem complementariadade na outra cauda, só de um lado entao eles se ligam na molécula heretoduplex, rnam e cdna, dps da síntese da primeira fita, dps ela é tratada com uma enizima q degrada uracila pra degradar o rna m, ai ocorre o primeiro round de pcr usando primers especifico .
Tem a adenilação das extremidades pra garantir a espeficicidade. Já que o adaptador possui uma base T que se sobressai.
Outros métodos tem a fragmentação do RNa e dps a síntese de cDNA . A fragmentação aquu é enzimática. Que tem uma regularidade de tamanho.
O sequenciamento normalmente é pair end, para aproveitar o máximo possível de fragamento.
No modo single end tem a ligação do primer do sequenciamento, ai ocorre o sequenciamento pela síntese da fita complementar ao tamplate selecionado.
O índice pode ser lido jundamente com o primer de sequenciamento.
Quantificaçao de qualidade:
RNA degradado e intacto
Formatos dos dados de sequencia;
Fasta , fastq,
Sff = obtido a partir de pirograma??
csfasta = formato obtido a partir do solid que é feito em cores n em bases, as cores são representadas por 0, 1 e 2 e 3. Cada cor representa a transição de bases
Srf = formato mais antigo sanger
Abi =
Scf = representação de cromatograma
Sequencia fa, tem um nome codificador e n tem espaço
Emboss alteração de formato
Arquivo. Qual msm identificador do fasta porem tem números dispostos separados por espaço e no lugar das bases existem números.
Dentro da lane tem ainda um quadrante escrito tile q tem as coordenadas x e y de cada pontinho e todos esses potinhos nesse quadrado são os clones de uma amostra.
O formato fastq tem uns caracteres dps das bases, que representa a qualidade . A combinação de bits ajuda a entender um numero , entao tem um numero deciml q representa um caracter . por ex numero 34 é “”
Qdo há incorporação há mais sinal , por ex incorporação de 8 nucleotideos de sinal a intensidade desinal é maior
Uma corrida seria o resultado deuma lane, ou qdo tem multiplax aquela corrida daquela lane feita pra aquela amostra
Identificador da amostra,
Digita ncbi/ sra ai digita a espécie
Acess ppublico
Biblioteca rna
Library paired end
Srx – experimento
Ssr – run
Ssp – projects
https://hackmd.io/@dgpinheiro/transcriptomics
Tarde
Qdo aparece todos os noms de login preciso voltar mais um ainda
[gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref #entrei dentro da pasta Ref
[gfrezarim@hammer Ref]$ ls
GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz
GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz
[gfrezarim@hammer Ref]$ gunzip GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz
[gfrezarim@hammer Ref]$ gunzip GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz
Como pegar sequencia SRA. Entra n o site do ncbi / sra . Entra em um numero de acesso especifico e entra no Run que é corrida, que tem o prefixo SRR
./cleanfasta.sh GCF_003025095.1_Triha_v1.0_genomic.fna > genome.fa salvar o arquivo de saída só com o que eu quero, sem o identificador
Significado
Significado biologico de alinhamento de sequecias. Definição de 3 termos importantes:
Identidade: refere-se a fração de AA ou nucleotídeos identificos entre pares de seqencia após um alinhamento dessas sequencias.
Similaridade: refere-se a fração de AA ou nucleotídeos similares entre pares de sequencia após um alinhamento dessas sequencias.
Homolgoia: representa uma relação evolutiva entre as sequencias
Qto mais sequencia com correspondência não ambígua melhor, tem q ter sequencias q se alinham unicamente naquela região. N é bom regiões que se alinham em mais lugares, esse é um dos controles que tem qq ser feito no alinhamento. Se n quer read ambiguia tem q avisar isso pra alinhar e se isso gera duvidas destrua essa sequencia.
Fred scor acima de 28 pode considerar de qualidade.
Matriz de pontos: onde tem correspondência fica preenchida se não fica em branco, por ex A com A preenche A com C não preenche. Na célula onde tem correspondência é preenchida se n fica em branco. Qdo observamos a diaogonal preenchida observamos uma correspondência nessa diagonal. Porem qdo combinamos sequencias reais temos que estabeler um trahshould mínimo nas diagonais, entao msm q falte 1 ponto 2 ou 3, 10 ainda pode dizer q tem correspondência. Entao algumas vc pode desconsiderar q n teve na diagonal .
Na matriz de AA é a matriz de substituição pra fzer a matriz de programação dinâmica.
Problema básico no alinhamento de sequencias:
Operação: inserção deleção e substituição
Blast qdo tem o + tem simililaridade.
Evalue faz sentido qdo usa um banco de dados e menciona ele pq ele depende do banco de dados, tem q citar ele e a versão.
Blast é lento demais para alinhar milhões de sequencias curtas.
Tabelas hash: paradigma seed and extend
Seed correspondência mmatch exata
200.145.102.81