# h1Aula 21/10 Segunda Precisa do arquivo fast e gmm Diretório cd /state /partition1/ Como conecta no hammer é a porta 22 mesmo. Se fosse usar a porta ssh – p 2221 hammer.fcav.unesp.br Dh – vh mostra quanto de espaço tem disponível no sistema; faz o gerenciamento. E tbm o diretório q ele esta montado . Então por ex se o que eu criei está no sim coloco cd sim e dps ls pra saer o que tem dentro da pasta. Sim -> meu login > home > e state. Então pra eu ir voltando coloco cd .. varias vezs até sair do meu home echegar onde ta a pasta state Cd partition1 – pra estar dentro dessa pasta partitiion1 onde eu vou criar o meu diretório Agora crio o diretório dentro dessa pasta mkdir chamei de gfrezarim Ncbi digita o nome bos tauruso, muda pra taxonomia, o que a gente acessa é o genoma do lado direito q fica numa tabela Ai eu copio o genoma que fica em cima do lado esquerdo, copia o link onde ta escrito genome. E o GFF Ref – onde coloca as referencias. Então fui para o meu home, criei uma pagina chamada ref com mkdir e coloquei wget espaço e colei o link Aqui embaixo movi o arquivo para a past Ref que deveria estar dentro de partição 1 , fizemos errado [gfrezarim@hammer /]$ mv home/gfrezarim/Ref/GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz state/partition1/gfrezarim/Ref/ [gfrezarim@hammer /]$ [gfrezarim@hammer /]$ cd s sbin/ selinux/ share/ srv/ state/ sys/ [gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref/ [gfrezarim@hammer Ref]$ ls GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz #confirmei q tinha movido o arquivo [gfrezarim@hammer Ref]$ cd .. [gfrezarim@hammer gfrezarim]$ cd .. [gfrezarim@hammer partition1]$ cd .. [gfrezarim@hammer state]$ cd .. [gfrezarim@hammer /]$ mv home/gfrezarim/Ref/GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz state/partition1/gfrezarim/Ref/ [gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref/ [gfrezarim@hammer Ref]$ ls GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz [gfrezarim@hammer Ref]$ Porque sequenciar transcriptoma? Mantem o foco da epesquisa nas funções genicas do genoma. Acelera o processo de anotação genômica descoberta de novos genes e modelos gênicos . O transcritpoma mapeado contra o genoma permite identificar regiões 5’ 3’ e tbm sítios de splicing. Auxilia na identificação de eventos de processamento altrativo de transcritos em tecidos ou condições biológicas espeficias. RNA seq é o sequenciamento abrangente do transcriptoma, utilizando a tecnologia shoutgun que fragamenta toda a molécula pra dps sequenciar. Não é necessário realizar replicas técnicas pq trem alta correlação. Tem acurácia alta. EM regiões intergenica as reads podem ser contaminação, novos genes. Intron – algum transcrito primário, seeria mais raro, ou algum intron q n foi degradado. Cobertura e profundidade: Profundidade qto ta sequenciando. Qto mais mais profundo. Cobertura: quatas vezes estou amostrando aquela msm base em média. As bases de todo genoma, transcriptoma. Sequencia unicamente mapeada: programa de alinhamento detecta que aquela sequencia foi mapeada em certo local apenas e em nenhum outro local.[ Como detectar qto tenho q sequenciar. Depende da questão biológica que quer q seja respondida, são genes mais expressos ou com expressão mais baixo. Por ex fatores de transcrição n precisa trer mt expresssao . Entao se o objetivo é isso, genes de transcrição é necessário um sequenciamento mais profundo. Qdo fala profundidade de 20x é que aquela base foi amostrada 20x em media. Qdp é alinhada com o genoma, a cauda poli A n vai se alinhar pq ela écolocada após a transcrição. Ela pode servir para orientação. Se identifico reads com caractreristicas de n tem mapeamento do genoma e a partir desse local onde ela n tem mapeamento tem adenina. Esta indifcando um sitio de poli adenilação Genoma novo sem predição – utilizar sequenciamento direcional ou de sequencia especifica. Regioes com sobreposições dos exons podem ser diferenciadas. Isso ajuda diferenciar um gene de outro. Seqnuenciamento pode ser single end apenas uma read é feita. Ou paired end Metodo de ligação para sequenciamento fita espefifica ilumina: por ex tem um RNA, em azul fica o adaptador do tipo 3’ , que se liga a uma extremidade esse adaptador tem um 3’ bloqueado q n permite a ligação de novos adaptadores . Também tem a ligação do adaptador 5’ q tb tem obloqueio. Aí ocorre a transcrição reversaa partir de uma molécula que tem uma cauda verde q é uma parte única do adaptador que se liga . ele é como se fosse um primer e faz com q seja sequenciado essa primeira fita de cdna. Após isso tem q fazer a transcrição da segunda fita que é feita do outro lado , tbmtem uma cauda q n tem complementariedade cm outras bases mas tem com o adaptador. Ai ocorre o processso de pcr que amplifica esse material até ter a construção de um tipo que fica um adaptador de um lado e do outro. O bloqueio tbm permite que o adaptador se ligue do lado errado e que n ocorra a amplificação. Nesse método n tem tratamento pra remover o RNA, mas toda pcr que ocorre a quantidade de uracila vai ser pouca. Ideia geral: um adpator espeficio pra 5’ w outro pra 3’. Existe outro método q chama dUTP . Aqui n é feito primeiro o adaptador no 3’ dps 5’ n tem o bloqueio. Esses adpatadors são em Y, ele n tem complementariadade na outra cauda, só de um lado entao eles se ligam na molécula heretoduplex, rnam e cdna, dps da síntese da primeira fita, dps ela é tratada com uma enizima q degrada uracila pra degradar o rna m, ai ocorre o primeiro round de pcr usando primers especifico . Tem a adenilação das extremidades pra garantir a espeficicidade. Já que o adaptador possui uma base T que se sobressai. Outros métodos tem a fragmentação do RNa e dps a síntese de cDNA . A fragmentação aquu é enzimática. Que tem uma regularidade de tamanho. O sequenciamento normalmente é pair end, para aproveitar o máximo possível de fragamento. No modo single end tem a ligação do primer do sequenciamento, ai ocorre o sequenciamento pela síntese da fita complementar ao tamplate selecionado. O índice pode ser lido jundamente com o primer de sequenciamento. Quantificaçao de qualidade: RNA degradado e intacto Formatos dos dados de sequencia; Fasta , fastq, Sff = obtido a partir de pirograma?? csfasta = formato obtido a partir do solid que é feito em cores n em bases, as cores são representadas por 0, 1 e 2 e 3. Cada cor representa a transição de bases Srf = formato mais antigo sanger Abi = Scf = representação de cromatograma Sequencia fa, tem um nome codificador e n tem espaço Emboss alteração de formato Arquivo. Qual msm identificador do fasta porem tem números dispostos separados por espaço e no lugar das bases existem números. Dentro da lane tem ainda um quadrante escrito tile q tem as coordenadas x e y de cada pontinho e todos esses potinhos nesse quadrado são os clones de uma amostra. O formato fastq tem uns caracteres dps das bases, que representa a qualidade . A combinação de bits ajuda a entender um numero , entao tem um numero deciml q representa um caracter . por ex numero 34 é “” Qdo há incorporação há mais sinal , por ex incorporação de 8 nucleotideos de sinal a intensidade desinal é maior Uma corrida seria o resultado deuma lane, ou qdo tem multiplax aquela corrida daquela lane feita pra aquela amostra Identificador da amostra, Digita ncbi/ sra ai digita a espécie Acess ppublico Biblioteca rna Library paired end Srx – experimento Ssr – run Ssp – projects https://hackmd.io/@dgpinheiro/transcriptomics Tarde Qdo aparece todos os noms de login preciso voltar mais um ainda [gfrezarim@hammer /]$ cd state/partition1/gfrezarim/Ref #entrei dentro da pasta Ref [gfrezarim@hammer Ref]$ ls GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz [gfrezarim@hammer Ref]$ gunzip GCF_002263795.1_ARS-UCD1.2_genomic.fna.gz [gfrezarim@hammer Ref]$ gunzip GCF_002263795.1_ARS-UCD1.2_genomic.gff.gz Como pegar sequencia SRA. Entra n o site do ncbi / sra . Entra em um numero de acesso especifico e entra no Run que é corrida, que tem o prefixo SRR ./cleanfasta.sh GCF_003025095.1_Triha_v1.0_genomic.fna > genome.fa salvar o arquivo de saída só com o que eu quero, sem o identificador Significado Significado biologico de alinhamento de sequecias. Definição de 3 termos importantes: Identidade: refere-se a fração de AA ou nucleotídeos identificos entre pares de seqencia após um alinhamento dessas sequencias. Similaridade: refere-se a fração de AA ou nucleotídeos similares entre pares de sequencia após um alinhamento dessas sequencias. Homolgoia: representa uma relação evolutiva entre as sequencias Qto mais sequencia com correspondência não ambígua melhor, tem q ter sequencias q se alinham unicamente naquela região. N é bom regiões que se alinham em mais lugares, esse é um dos controles que tem qq ser feito no alinhamento. Se n quer read ambiguia tem q avisar isso pra alinhar e se isso gera duvidas destrua essa sequencia. Fred scor acima de 28 pode considerar de qualidade. Matriz de pontos: onde tem correspondência fica preenchida se não fica em branco, por ex A com A preenche A com C não preenche. Na célula onde tem correspondência é preenchida se n fica em branco. Qdo observamos a diaogonal preenchida observamos uma correspondência nessa diagonal. Porem qdo combinamos sequencias reais temos que estabeler um trahshould mínimo nas diagonais, entao msm q falte 1 ponto 2 ou 3, 10 ainda pode dizer q tem correspondência. Entao algumas vc pode desconsiderar q n teve na diagonal . Na matriz de AA é a matriz de substituição pra fzer a matriz de programação dinâmica. Problema básico no alinhamento de sequencias: Operação: inserção deleção e substituição Blast qdo tem o + tem simililaridade. Evalue faz sentido qdo usa um banco de dados e menciona ele pq ele depende do banco de dados, tem q citar ele e a versão. Blast é lento demais para alinhar milhões de sequencias curtas. Tabelas hash: paradigma seed and extend Seed correspondência mmatch exata 200.145.102.81