# Como usar o Repeat Explorer para obter TEs de genomas com baixa profundidade
## Protocolo que foi utilizado no curso para dados de genome skimming:
:::warning
Primeiramente verificar:
* Se as sequências *reads* de estão com tamanhos similares.
* Se a cobertura das reads tem 0.1x - 0.5x (recomendação do desenvolvedor do software).
* Para saber qual a cobertura a partir dos *reads* é obter uma estimativa do tamanho do genoma - por exemplo por citometria de fluxo ou contagem de kmers e fazer o cálculo de C = LN / G (C = cobertura; L = tamanho das reads; N = número de reads; G = tamanho do genoma).
* Para selecionar a quantidade de *reads* que corresponde a cobertura desejada você pode usar softwares como [Seqtk](https://github.com/lh3/seqtk) toolkit
`Exemplo de uso:
seqtk sample -s 10 name.R1.fastq.gz 313333 | gzip -c > name_05xcov_R1.fastq.gz`
- -s é a seed para garantir a reprodutibilidade dos resultados nos dois pares, portanto deve-se usar o mesmo valor tanto para o par R1 quanto R2.
:::
Fazer login no Repeat Explorer implementado no Galaxy:
https://repeatexplorer-elixir.cerit-sc.cz/galaxy/
1. Fazer upload dos seus dados no Workspace.
2. Análise dos reads usando o FASTQC

3. Sempre usar paired-end, nunca single ends.
Fazer pré-processamento (Antes ou Depois de depositar no Workspace)
3.1. Caso possuir muitos reads de cloroplasto (~10% do dataset), poderá retirá-los antes da análise, contudo não é uma regra.

:::warning
Verificar se as reads possuem tamanhos similares, caso contrário, trimar as reads para obter sequências de mesmo tamanho na opção "Trim sequences".
:::
4. O arquivo de paired-end devem estar juntos em um arquivo na forma interlaçada, ou seja, read1/1 read1/2 um embaixo do outro.

5. A quantidade de dados usadas para a análise do Repeat Explorer tem que ser de aproximadamente 0,1 - 0,5x de cobertura de um genoma.
O sample size, deve ser mudado para todos os reads, haja vista que já fez uma amostragem inicial.

Outra coisa a se prestar atenção é depois da trimagem, verificar quantos reads sobram para ter certeza que a cobertura corresponde a quantidade de reads que está servindo de input para as sequências.
### Repeat explorer output
Após realizar a análise, faça o download dos arquivos no seu computador e extraia-os em alguma pasta conhecida:
:::danger
Sempre é necessário fazer a verificação manual de cada um dos repeats
:::
Para fazer a verificação manual
1. Abrir o arquivo de anotação: Cluster_table.csv

2. Confirmar a anotação dos Superclusteres:
Para fazê-lo, primeiramente você deve abrir o arquivo "CLUSTER_TABLE.csv" em um programa de planilhas, como o excel ou libreofficecalc, e ordenar a tabela por Supercluster (do menor para o maior):

Após você deve olhar os Clusteres dentro dos Superclusteres e confirmar cada um deles.
Para isso, é necessário que se olha os Super Clusteres dentro do arquivo _index.html_, dentro da opção "**Cluster annotation**":

E verificar qual a porcentagem de cada TEs dentro do cluster olhando os grafos dentro do arquivo "**Cluster annotation**": (O qual, para facilitar, você poderá ordenar por número de Supercluster)

Por exemplo, de acordo com o Supercluster 4 os clusteres 1 e 4 tem maior porcentagem que correspondem a Tekay, sendo assim, é possível confirmar que este cluster é um elemento do tipo **Tekay**

Para verificar cada cluster dentre de Superclusteres é possivel visualizar o arquivo *.ace dentro da pasta seqclust > clustering > clusters

Dentro desta pasta há diversos CL_000# que correspode a cada cluster dentro de cada super cluster.
Fazer a inspeção visual dos transposons para verificar se realmente são o que foram anotados, caso contrário, corrigir.
:::warning
Para abrir o arquivo *.ace há vários programas, o que usamos no curso foi o clview, mas costumo usar o geneious (versão "trial"), pois acho mais fácil de visualizar. Contudo, você pode usar qualquer programa, desde que permita você verificar quais os transposons que estão ali anotados.
:::
Após inspecionar todos os transposons e corrigi-los na tabela "Cluster_table.csv"
Recalcular as % de repeats no genoma retirando contaminantes de DNA de organelas.
Ex: _U. longifolia_
Após a inspeção visual da anotação dos Superclusteres, você deve recalcular a proporção de repeats no genoma retirando os reads de organelas e contaminantes.
Para isso, você deve somar a quantidade de reads contaminantes e de organelas e subtrair da quantidade de reads analisados, indicado no arquivo "index.html":

Sendo assim, no exemplo:
foram analisados 1542850 reads
Contudo, de acordo com a análise de dados curados, os dados possuem 2900 de contaminação e 447066 de organelas (MTs e CPs).
Portanto devemos subtrair 1542850 - 447066 = 1095784.
Sendo assim, olhando os elementos Tekay, do supercluster 4. Devemos refazer os cálculos. O que antes era 3.76% (que corresponde a considerando os 1542850 reads), agora, recalculando com uma simples regra de 3:
1095784 100
58160 x
x = 58160 x 100/ 1095784;
portanto Tekay do supercluster 4 corresponde a 5,30% do genoma e não 3.76% como quantificado anteriormente.
Workflow usado:

## Glossários de características de TEs
### Tekay
exemplo de Tekay:
KX396599
### Retand
exemplo de Retand:
Retand-2 DQ023669
Retand-1 DQ023670
### hAT
modo principal de identificação de hAts são os repeats terminais invertidos (TIRs)
Table. Alignment of hAT element TIRs
| Name | TIR sequence |
| -------- | -------- |
| Ac/Ds | c AGGGAT GAAA |
| |t AGGGAT GAAA |
| Bg | CAGGG |
| Tpc1 | TAGGG– TGTAAA |
| | TAGGGCT GTAAA |
| lps-r | TAGGGGTGGCAA |
| dLute | CAGGg CCGt CCAAT |
| | CAGGc CCGc CCAAT |
| dTph1 (4) | CAGGGGCGGAGC (A) |
| dTph2 | CAGGGCCGGCC CAA |
| Tip 100 | CAGGGGCGGAGGCA |
| Tst1 | CAGg GGCGTAT |
| | CAGa GGCGTAT |
|rDt | CAg T GTt T TAAATC|
||CAa T GTa T TAAATC|
|dTnp1 | CAg t Gc CGGCT CAA|
| |CAa g Gg CGGCT CAA|
|Tag2 |c AGAAc c GTCAATTGGGC|
| | t AGAAg t GTCAATTGGGC|
|Tam3 | TAAA GATGTGAA|
|Slide-124 | TAAT GCT|
|Tag1| CAAT GTTT TCACGCCCGACCCG|
:::warning
CHAPTER 24 • hAT AND CACTA PLANT TRANSPOSONS
::::
### Athila
### Mariner
Tem sequências "TAs" repetidas no final
### LINE
Tem cauda rica em "A"
## Tomar cuidado
Nos resultados observados no curso do Repeat Explorer deparamos com anotações equivocadas.
#### Exemplos vistos no curso:
> Anotação automática em 5S na verdade era um elemento chamado TRIM (PNAS abril, 2008)
> Satellites com baixo score e tamanho até 300pb podem ser MITE
>