# Formatos de arquivos :page_facing_up:
Agora que você já sabe explorar 🔎 , editar 🎬, mover, abrir 📖, criar 🆕, etc, usando comandos na telinha preta 🖥, precisa conhecer e entender os formatos de arquivos 📄 com os que vai ter que lidar nas análises de dados NGS.
## Colaboradores
* :female-scientist::female-technologist: MSc. Kelly J. Hidalgo Martinez
Microbióloga
Doutoranda em Genética e Biologia Molecular
Instituto de Biologia - UNICAMP
:iphone: Whastapp: +5519981721510
:mailbox_with_mail: Email: khidalgo@javeriana.edu.co
* :male-scientist::male-technologist: Victor Borin Centurion
Biomédico
Doutorando em Genética e Biologia Molecular
Instituto de Biologia - UNICAMP
:iphone:Whastapp: +5519982349780
:mailbox_with_mail: Email: vborincenturion@yahoo.com.br
* :male-scientist::male-technologist: Dr. Tiago Palladino Delforno
Biólogo
:mailbox_with_mail: Email: tiago.palladino@gmail.com
---
#### Importante
* Você já viu e praticou o tutorial de UNIX shell? não? então :link: [vai lá](https://)!
# Vamos lá
### Formato `.fasta` `.fna` `.fa`
Foi criado em 1988 e foi desenhado para representar sequências de nucleótideos e peptideos.
A continuação um exemplo de sequência armazenada em um arquivo :page_facing_up: `.fasta`
```coffeescript=
>KGO32693.1 benzylsuccinate synthase [Desulfobulbus sp. Tol-SR]
MTLLRKSATKTPLITEIQRFCLQDGPGIRTTIFFKGCPLHCPWCHNPETQSRKKDLYYHANLCTGCGRCI
DVCPEEACTMLIGPEGTASIAIDRDKCTLCMSCVDACPSGARETVGHLLTMDEILRECLSDQPFYKNSGG
GVTLSGGDPLFFADFALTLSQRLKQEGVHVAMETSCFPDFEVIRPLLSAIDLFIVDIKSMDPVKHRQVIG
WPLEPILENIKLLIENGANMRIHLPIIPGFNDTAGDYQAYVDFLTPYAEKLIGVDILPFHSYAAGKYDFL
GLSQTYQYKGVKDKSVGQMKELVQMLVMVGIASVTVGGLVGMGGDKGEKP
```
A primeira linha sempre começa com o simbolo `>`. Após o simbolo se encontra o identificador da sequência, no nosso exemplo KGO32693.1 é o número de acesso dessa sequência no genbank. Depois está uma descrição da sequência (benzylsuccinate synthase ***Desulfobulbus sp. Tol-SR***). A segunda linha é a sequência propiamente dita, e poderia ser tanto de nucleótideos (p.e. GTCATCC..) ou proteinas (p.e. MSLVMANE...).
Um arquivo 📄 de saída de sequenciamento NGS se vê assim:

A primeira linha também começa com o simbolo `>`, após está o identificador da sequência e alguns dados do sequenciador e da corrida de sequenciamento.
### Formato `.fastq` `.fq`
Este formato além de conter as sequências, tem também a informação de qualidade da cada um dos nucleótideos. É o formato *default* de saída do sequenciamento em plataformas Illumina.

A primeira linha começa com o caracter `@` seguido da identificação da sequencia e informações opcionais sobre a maquina de sequenciamento usada e dados da corrida.
Na segunda linha se encontra a sequência.
A terceira linha tem o simbolo `+` para separar a linha da sequência da quarta linha que corresponde com a informação de qualidade de cada base (*Phred+33 score*). Os caracteres da **tabela ASCII** são usados para simbolizar a qualidade de cada base. A linha 4 deve ter o mesmo número de simbolos como letras na sequência (linha 2).
O exemplo na imagem acima, mostra que a base T tem F como caracter da **tabela ASCII** (imagem abaixo) que corresponde a 70. Para conhecer o valor do *Phred+33 score*:
```
Phred score = valor na tabela ASCII - 33
```
**Nota**: A plataforma Illumina normalmente usa o *Phred33 score* ao igula que Sanger, algumas versões anteriores de Illumina e Solexa usam o *Phred64 score*

**Mas o que é esse Phred score ou valor de qualidade??** 🤔
É a probabilidade de que a base esteja corretamente sequenciada.
O *Phred score* usa uma escala logarítmica, representada por caracteres da tabela ASCII, e que levam valores de 0 a 40.
A formula do *Phred score* é:
*Q = -10 log10 P*
ou
*P = 10 (-Q/10)*
Por exemplo, se o *Phred score* assignado a uma base é 30, a probabilidade que essa base tinha sido sequenciaciada erradamente é de 1 em 1000 ou 99.9% de que esteja correta.
| Phred score | Probabilidade que esteja incorreta | Precisão da base |
| -------- | -------- | -------- |
| 10 | 1 em 10 | 90% |
| 20 | 1 em 100 | 99% |
| 30 | 1 em 1000 | 99.9% |
| 40 | 1 em 10000 | 99.99% |
| 50 | 1 em 100000 | 99.999% |
| 60 | 1 em 1000000 | 99.9999% |
Com programa **Fastqc** você consegue ver gráficamente a qualidade das sequências. (Mas para frente vai aprender a gerar esses gráficos 🤓).

Neste gráfico de barras 📊 você tem: no eixo **x** cada posição das bases nucleótideas e no eixo **y** o *Phred score*. A ideia é que todas as barras junto com a linha de dispersão estejam no mínimo acima de 20 = 99% (caixa beige), mas idealmente acima de 30 = 99.9% (caixa verde).
Você vai conseguir fazer isso no tutorial de 🔗[Control de qualidade e trimagem](https://). **Mas calma ainda não vai lá** 😒
### Formato `.sam/.bam`
`.sam` (**S**equence **A**lignment **M**ap) é um formato que armazena sequências biológicas alinhadas a uma sequência de referência.
O fomato `.sam` consiste em uma seção de cabeçalho e outra de alinhamento. A representação binaria do `.sam` é o `.bam`, o qual é a versão comprimida do `.sam`. Os arquivos `.sam` podem ser analizados e editados com o programa **SAMtools**.
Se você for corajoso e quer entender melhor o que é formato `.sam`, 🔗 [aqui](https://samtools.github.io/hts-specs/SAMv1.pdf) pode tentar!
### Formato `.gff`
Os arquivos `.gff` (**G**eneral **F**eature **F**ormat) são usados para descrever genes e outras características das sequências de DNA, RNA e proteínas. É o formato padrão para anotação de genomas.
Se você está muito curioso em conhecer mais sobre o conteúdo e organização deste formato, vai 🔗[aqui](https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md)
**FIM** :sparkle: