Como usar o Repeat Explorer para obter TEs de genomas com baixa profundidade

# Como usar o Repeat Explorer para obter TEs de genomas com baixa profundidade ## Protocolo que foi utilizado no curso para dados de genome skimming: :::warning Primeiramente verificar: * Se as sequências *reads* de estão com tamanhos similares. * Se a cobertura das reads tem 0.1x - 0.5x (recomendação do desenvolvedor do software). * Para saber qual a cobertura a partir dos *reads* é obter uma estimativa do tamanho do genoma - por exemplo por citometria de fluxo ou contagem de kmers e fazer o cálculo de C = LN / G (C = cobertura; L = tamanho das reads; N = número de reads; G = tamanho do genoma). * Para selecionar a quantidade de *reads* que corresponde a cobertura desejada você pode usar softwares como [Seqtk](https://github.com/lh3/seqtk) toolkit `Exemplo de uso: seqtk sample -s 10 name.R1.fastq.gz 313333 | gzip -c > name_05xcov_R1.fastq.gz` - -s é a seed para garantir a reprodutibilidade dos resultados nos dois pares, portanto deve-se usar o mesmo valor tanto para o par R1 quanto R2. ::: Fazer login no Repeat Explorer implementado no Galaxy: https://repeatexplorer-elixir.cerit-sc.cz/galaxy/ 1. Fazer upload dos seus dados no Workspace. 2. Análise dos reads usando o FASTQC ![](https://i.imgur.com/JKTkQOT.png) 3. Sempre usar paired-end, nunca single ends. Fazer pré-processamento (Antes ou Depois de depositar no Workspace) 3.1. Caso possuir muitos reads de cloroplasto (~10% do dataset), poderá retirá-los antes da análise, contudo não é uma regra. ![](https://i.imgur.com/rEkYAtn.png) :::warning Verificar se as reads possuem tamanhos similares, caso contrário, trimar as reads para obter sequências de mesmo tamanho na opção "Trim sequences". ::: 4. O arquivo de paired-end devem estar juntos em um arquivo na forma interlaçada, ou seja, read1/1 read1/2 um embaixo do outro. ![](https://i.imgur.com/gVmCWT7.png) 5. A quantidade de dados usadas para a análise do Repeat Explorer tem que ser de aproximadamente 0,1 - 0,5x de cobertura de um genoma. O sample size, deve ser mudado para todos os reads, haja vista que já fez uma amostragem inicial. ![](https://i.imgur.com/eto2s4c.png) Outra coisa a se prestar atenção é depois da trimagem, verificar quantos reads sobram para ter certeza que a cobertura corresponde a quantidade de reads que está servindo de input para as sequências. ### Repeat explorer output Após realizar a análise, faça o download dos arquivos no seu computador e extraia-os em alguma pasta conhecida: :::danger Sempre é necessário fazer a verificação manual de cada um dos repeats ::: Para fazer a verificação manual 1. Abrir o arquivo de anotação: Cluster_table.csv ![](https://i.imgur.com/9QWI4Cx.png) 2. Confirmar a anotação dos Superclusteres: Para fazê-lo, primeiramente você deve abrir o arquivo "CLUSTER_TABLE.csv" em um programa de planilhas, como o excel ou libreofficecalc, e ordenar a tabela por Supercluster (do menor para o maior): ![](https://i.imgur.com/iPY04VC.png) Após você deve olhar os Clusteres dentro dos Superclusteres e confirmar cada um deles. Para isso, é necessário que se olha os Super Clusteres dentro do arquivo _index.html_, dentro da opção "**Cluster annotation**": ![](https://i.imgur.com/V1BrV7b.png) E verificar qual a porcentagem de cada TEs dentro do cluster olhando os grafos dentro do arquivo "**Cluster annotation**": (O qual, para facilitar, você poderá ordenar por número de Supercluster) ![](https://i.imgur.com/euT9P2R.png) Por exemplo, de acordo com o Supercluster 4 os clusteres 1 e 4 tem maior porcentagem que correspondem a Tekay, sendo assim, é possível confirmar que este cluster é um elemento do tipo **Tekay** ![](https://i.imgur.com/1CZz9KB.png) Para verificar cada cluster dentre de Superclusteres é possivel visualizar o arquivo *.ace dentro da pasta seqclust > clustering > clusters ![](https://i.imgur.com/9HZopRG.png) Dentro desta pasta há diversos CL_000# que correspode a cada cluster dentro de cada super cluster. Fazer a inspeção visual dos transposons para verificar se realmente são o que foram anotados, caso contrário, corrigir. :::warning Para abrir o arquivo *.ace há vários programas, o que usamos no curso foi o clview, mas costumo usar o geneious (versão "trial"), pois acho mais fácil de visualizar. Contudo, você pode usar qualquer programa, desde que permita você verificar quais os transposons que estão ali anotados. ::: Após inspecionar todos os transposons e corrigi-los na tabela "Cluster_table.csv" Recalcular as % de repeats no genoma retirando contaminantes de DNA de organelas. Ex: _U. longifolia_ Após a inspeção visual da anotação dos Superclusteres, você deve recalcular a proporção de repeats no genoma retirando os reads de organelas e contaminantes. Para isso, você deve somar a quantidade de reads contaminantes e de organelas e subtrair da quantidade de reads analisados, indicado no arquivo "index.html": ![](https://i.imgur.com/wlpqhxW.png) Sendo assim, no exemplo: foram analisados 1542850 reads Contudo, de acordo com a análise de dados curados, os dados possuem 2900 de contaminação e 447066 de organelas (MTs e CPs). Portanto devemos subtrair 1542850 - 447066 = 1095784. Sendo assim, olhando os elementos Tekay, do supercluster 4. Devemos refazer os cálculos. O que antes era 3.76% (que corresponde a considerando os 1542850 reads), agora, recalculando com uma simples regra de 3: 1095784 100 58160 x x = 58160 x 100/ 1095784; portanto Tekay do supercluster 4 corresponde a 5,30% do genoma e não 3.76% como quantificado anteriormente. Workflow usado: ![](https://i.imgur.com/7zgXCmz.png) ## Glossários de características de TEs ### Tekay exemplo de Tekay: KX396599 ### Retand exemplo de Retand: Retand-2 DQ023669 Retand-1 DQ023670 ### hAT modo principal de identificação de hAts são os repeats terminais invertidos (TIRs) Table. Alignment of hAT element TIRs | Name | TIR sequence | | -------- | -------- | | Ac/Ds | c AGGGAT GAAA | | |t AGGGAT GAAA | | Bg | CAGGG | | Tpc1 | TAGGG– TGTAAA | | | TAGGGCT GTAAA | | lps-r | TAGGGGTGGCAA | | dLute | CAGGg CCGt CCAAT | | | CAGGc CCGc CCAAT | | dTph1 (4) | CAGGGGCGGAGC (A) | | dTph2 | CAGGGCCGGCC CAA | | Tip 100 | CAGGGGCGGAGGCA | | Tst1 | CAGg GGCGTAT | | | CAGa GGCGTAT | |rDt | CAg T GTt T TAAATC| ||CAa T GTa T TAAATC| |dTnp1 | CAg t Gc CGGCT CAA| | |CAa g Gg CGGCT CAA| |Tag2 |c AGAAc c GTCAATTGGGC| | | t AGAAg t GTCAATTGGGC| |Tam3 | TAAA GATGTGAA| |Slide-124 | TAAT GCT| |Tag1| CAAT GTTT TCACGCCCGACCCG| :::warning CHAPTER 24 • hAT AND CACTA PLANT TRANSPOSONS :::: ### Athila ### Mariner Tem sequências "TAs" repetidas no final ### LINE Tem cauda rica em "A" ## Tomar cuidado Nos resultados observados no curso do Repeat Explorer deparamos com anotações equivocadas. #### Exemplos vistos no curso: > Anotação automática em 5S na verdade era um elemento chamado TRIM (PNAS abril, 2008) > Satellites com baixo score e tamanho até 300pb podem ser MITE >