Formatos de arquivos :page_facing_up:

# Formatos de arquivos :page_facing_up: Agora que você já sabe explorar 🔎 , editar 🎬, mover, abrir 📖, criar 🆕, etc, usando comandos na telinha preta 🖥, precisa conhecer e entender os formatos de arquivos 📄 com os que vai ter que lidar nas análises de dados NGS. ## Colaboradores * :female-scientist::female-technologist: MSc. Kelly J. Hidalgo Martinez Microbióloga Doutoranda em Genética e Biologia Molecular Instituto de Biologia - UNICAMP :iphone: Whastapp: +5519981721510 :mailbox_with_mail: Email: khidalgo@javeriana.edu.co * :male-scientist::male-technologist: Victor Borin Centurion Biomédico Doutorando em Genética e Biologia Molecular Instituto de Biologia - UNICAMP :iphone:Whastapp: +5519982349780 :mailbox_with_mail: Email: vborincenturion@yahoo.com.br * :male-scientist::male-technologist: Dr. Tiago Palladino Delforno Biólogo :mailbox_with_mail: Email: tiago.palladino@gmail.com --- #### Importante * Você já viu e praticou o tutorial de UNIX shell? não? então :link: [vai lá](https://)! # Vamos lá ### Formato `.fasta` `.fna` `.fa` Foi criado em 1988 e foi desenhado para representar sequências de nucleótideos e peptideos. A continuação um exemplo de sequência armazenada em um arquivo :page_facing_up: `.fasta` ```coffeescript= >KGO32693.1 benzylsuccinate synthase [Desulfobulbus sp. Tol-SR] MTLLRKSATKTPLITEIQRFCLQDGPGIRTTIFFKGCPLHCPWCHNPETQSRKKDLYYHANLCTGCGRCI DVCPEEACTMLIGPEGTASIAIDRDKCTLCMSCVDACPSGARETVGHLLTMDEILRECLSDQPFYKNSGG GVTLSGGDPLFFADFALTLSQRLKQEGVHVAMETSCFPDFEVIRPLLSAIDLFIVDIKSMDPVKHRQVIG WPLEPILENIKLLIENGANMRIHLPIIPGFNDTAGDYQAYVDFLTPYAEKLIGVDILPFHSYAAGKYDFL GLSQTYQYKGVKDKSVGQMKELVQMLVMVGIASVTVGGLVGMGGDKGEKP ``` A primeira linha sempre começa com o simbolo `>`. Após o simbolo se encontra o identificador da sequência, no nosso exemplo KGO32693.1 é o número de acesso dessa sequência no genbank. Depois está uma descrição da sequência (benzylsuccinate synthase ***Desulfobulbus sp. Tol-SR***). A segunda linha é a sequência propiamente dita, e poderia ser tanto de nucleótideos (p.e. GTCATCC..) ou proteinas (p.e. MSLVMANE...). Um arquivo 📄 de saída de sequenciamento NGS se vê assim: ![](https://i.imgur.com/Q5wk8jH.jpg) A primeira linha também começa com o simbolo `>`, após está o identificador da sequência e alguns dados do sequenciador e da corrida de sequenciamento. ### Formato `.fastq` `.fq` Este formato além de conter as sequências, tem também a informação de qualidade da cada um dos nucleótideos. É o formato *default* de saída do sequenciamento em plataformas Illumina. ![](https://i.imgur.com/w1ZJ0yU.png) A primeira linha começa com o caracter `@` seguido da identificação da sequencia e informações opcionais sobre a maquina de sequenciamento usada e dados da corrida. Na segunda linha se encontra a sequência. A terceira linha tem o simbolo `+` para separar a linha da sequência da quarta linha que corresponde com a informação de qualidade de cada base (*Phred+33 score*). Os caracteres da **tabela ASCII** são usados para simbolizar a qualidade de cada base. A linha 4 deve ter o mesmo número de simbolos como letras na sequência (linha 2). O exemplo na imagem acima, mostra que a base T tem F como caracter da **tabela ASCII** (imagem abaixo) que corresponde a 70. Para conhecer o valor do *Phred+33 score*: ``` Phred score = valor na tabela ASCII - 33 ``` **Nota**: A plataforma Illumina normalmente usa o *Phred33 score* ao igula que Sanger, algumas versões anteriores de Illumina e Solexa usam o *Phred64 score* ![](https://i.imgur.com/BCk0k1E.png) **Mas o que é esse Phred score ou valor de qualidade??** 🤔 É a probabilidade de que a base esteja corretamente sequenciada. O *Phred score* usa uma escala logarítmica, representada por caracteres da tabela ASCII, e que levam valores de 0 a 40. A formula do *Phred score* é: *Q = -10 log10 P* ou *P = 10 (-Q/10)* Por exemplo, se o *Phred score* assignado a uma base é 30, a probabilidade que essa base tinha sido sequenciaciada erradamente é de 1 em 1000 ou 99.9% de que esteja correta. | Phred score | Probabilidade que esteja incorreta | Precisão da base | | -------- | -------- | -------- | | 10 | 1 em 10 | 90% | | 20 | 1 em 100 | 99% | | 30 | 1 em 1000 | 99.9% | | 40 | 1 em 10000 | 99.99% | | 50 | 1 em 100000 | 99.999% | | 60 | 1 em 1000000 | 99.9999% | Com programa **Fastqc** você consegue ver gráficamente a qualidade das sequências. (Mas para frente vai aprender a gerar esses gráficos 🤓). ![](https://i.imgur.com/N6Sz4vc.png) Neste gráfico de barras 📊 você tem: no eixo **x** cada posição das bases nucleótideas e no eixo **y** o *Phred score*. A ideia é que todas as barras junto com a linha de dispersão estejam no mínimo acima de 20 = 99% (caixa beige), mas idealmente acima de 30 = 99.9% (caixa verde). Você vai conseguir fazer isso no tutorial de 🔗[Control de qualidade e trimagem](https://). **Mas calma ainda não vai lá** 😒 ### Formato `.sam/.bam` `.sam` (**S**equence **A**lignment **M**ap) é um formato que armazena sequências biológicas alinhadas a uma sequência de referência. O fomato `.sam` consiste em uma seção de cabeçalho e outra de alinhamento. A representação binaria do `.sam` é o `.bam`, o qual é a versão comprimida do `.sam`. Os arquivos `.sam` podem ser analizados e editados com o programa **SAMtools**. Se você for corajoso e quer entender melhor o que é formato `.sam`, 🔗 [aqui](https://samtools.github.io/hts-specs/SAMv1.pdf) pode tentar! ### Formato `.gff` Os arquivos `.gff` (**G**eneral **F**eature **F**ormat) são usados para descrever genes e outras características das sequências de DNA, RNA e proteínas. É o formato padrão para anotação de genomas. Se você está muito curioso em conhecer mais sobre o conteúdo e organização deste formato, vai 🔗[aqui](https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md) **FIM** :sparkle: