# [Minicurso 2025] 06. Análises do Microbioma
###### tags: `Minicurso25`

[TOC]
## Análises do microbioma:
**Objetivo:**
- Responder as perguntas biológicas levantadas pelo trabalho.
**Entradas:**
- Tabelas de contagens e taxonomias;
- Tabelas de metadados;
- Tabelas de genes/funções;
- Árvores filogenéticas
**Saídas:**
- Figuras e tabelas;
- Análises estatísticas
## 1. Procedimentos iniciais
### 1.1. Obtenção das tabelas:
- Abra o **"WinSSHTerm"**;
- Na conexão com o servidor, clique com o lado direito do mouse e selecione a opção: *"Copy files"*;
- Aguarde e aceite a conexão;
- Note a tela bipártida. O lado esquerdo corresponde ao ambiente do seu computador e o direito ao servidor;
- Selecione o local onde deseja enviar os arquivos no seu computador.
- *Ex.: Desktop/Área de trabalho*;
- No lado direito, navegue até o diretório que estão as tabelas:
- **`projeto > analises > dada2`**
- Selecione as tabelas iniciadas por ***"MA"*** e arraste até seu computador (lado esquerdo).
- ***Se perdeu? Baixe as tabelas aqui: [Link](https://drive.google.com/file/d/1qogxlsUo1oF9_h-RUnzsMTA5fR3CdBMX/view?usp=sharing)***
### 1.2. Acesso ao site:
Realizaremos nossas análises através da plataforma **"Microbiome Analyst"**. O site possui algumas soluções para análises de metataxonômica e metagenômica, aqui utilizaremos o *"Marker Data Profiling (MDP)"*.
- ***Acesso:*** https://www.microbiomeanalyst.ca/MicrobiomeAnalyst/upload/OtuUploadView.xhtml
### 1.3. Submissão dos dados:
- O *Microbiome Analyst* requer três tabelas obrigatórias com formatação específica, são elas: Tabela de **contagens**, de **taxonômias** e de **metadados**;
- Nossos arquivos já estão formatados e ordenados na forma correta, então vamos seleciona-los um a um;
- Antes de submeter, altere o tipo das taxonomias (*"Taxonomy labels"*) para: *"Not Specific / Other"*;
- Clique em *"Submit"* para enviar os arquivos.

## 2. Pré-análise
Resumo, filtragem e normalização/rarefação dos dados.
### 2.1. Resumo dos dados
- Na aba ***"Text Summary"*** temos um breve resumo dos dados, contendo informações como contagens de OTUs/ASVs, bem como aquelas com mais de uma ocorrencia (*"OTUs with => 2 counts"*) - um valor importante, já que é um filtro obrigatório da plataforma.
- Outras informações se atém ao n. de sequências (min, max, méd), n. de amostras e se os nomes estão de acordo entre as tabelas (*"Sample names match"*)
- Na aba ***"Library Size Overview"*** se encontra uma visualização da distribuição das seqs. por cada amostras.

### 2.2. Filtragem
- Na aba ***"Feature Filter"*** temos algumas opções de filtragem dos dados com bases em critérios comumente usados, sendo estes: contagens, prevalência e variância;
- Por padrão, o MA removeria todas as ASVs com menos de 4 contagens em pelo menos 20% das amostras (*"Low count filter"*). Além disso, removeria ASVs que são constantes entre as amostras (*"Low variance filter"*) - Algo que pode ser útil em situações em que se pretende estudar apenas as diferenças entre determinadas condições;
- Aqui, iremos **reduzir todos os filtros**, deslizando-os ao mínimo, prezando pela preservação dos dados. Contudo, ASVs que aparecem em apenas em uma amostra serão obrigatoriamente filtrados. Submeta

- Na aba ***"Sample Editor"*** é possível selecionar amostras específicas para realizar as análises. Voltaremos aqui mais tarde.
### 2.3. Normalização dos dados
- A **normalização** é um processo que procura adequar os dados, levando em consideração aspectos como a natureza esparça e de alta variabilidade desse tipo de análise. Dessa forma, esse processo procura *deixar as coisas mais comparaveis*.
- Outro processo que é comumente efetuado em dados de microbioma é a **rarefação**, a qual nivela todas as amostras ao re-amostrar as seqs. com base na biblioteca de menor n. de seqs. Assim, *ao final desse processo, todas as amostras terão o mesmo n. de seqs*.
- Aqui, seguiremos com as **configurações padrão**. Onde não iremos rarefazer, e normalizaremos por *"Total sum scaling (TSS)"*. Submeta e proceda.
## 3. Análises de microbioma
- Aqui temos o ambiente com todas análises possíveis de serem feitas;
- Há uma série de métodos (alguns redundantes) para realizarem diferentes análises comumente feitas para microbiomas;
- Note que as análises são agrupadas por categorias (Exploração visual, Perfil da comunidade, etc...);
- Algumas análises são limitadas e requerem certos arquivos/padrões para serem realizadas (Ex. Árvore filogenética; Bancos de anotação tax. específicos, etc...)
- Abordaremos as seguintes análises:
- ***Curvas de rarefação***
- ***Perfis taxonômicos***
- ***Alfa e Beta diversidade***
- ***Microbioma essencial***
- ***Abundância diferencial***
- ***Redes de coocorrência***

### 3.1. Curvas de rarefação
> **Descrição:** Derivado conceito ecológico de "curva do coletor", as curvas de rarefação informam o número de espécies/taxa por esforço amostral. No nosso caso, as espécies correspondem à ASVs, enquanto o esforço amostral seria o n. de sequências (profundidade de sequenciamento). Assim, poderemos verificar se foi possível capturar a maior parte da diversidade presente no ambiente ou não. Isso se dá pela estabilidade da curva, sendo que quando ela se encontra na forma de uma reta ou semi-reta (ângulo de inclinação próx. a 0 °), indica que sequências adicionais não estariam refletindo em novos encontros. Porém, no caso da finalização da curva em uma tendência ascendente, é provável que espécies tenham ficado de fora, prejudicando qualquer conclusão derivada do trabalho.

---
- Vamos avaliar nossa curva de rarefação, clicando em ***"Rarefaction curve"***;
- Torne-a mais suave ao alterar ***"Steps"*** de `5` para `20`;
- Os parâmetros das linhas não irão mudar a tendência das curvas, apenas irão mostra-las de forma diferente. Ao invés de separar cada grupo, vamos alterar a cor (***"Line color based on"***) para representar a resistência (`Resistance`), o tipo de linha (***"Line type based on"***) para o tipo de amostra (`Env`) e o agrupamento (***"Group based on"***) de acordo com o patógeno inoculado (`Trial`);
- Note que diferentes amostras possuem diferentes pontos de estabilização. **Realizar rarefação seria adequado para essa situação?**
- Essas curvas são um ponto de referência para estabelecer coberturas adequadas para cobrir um determinado ambiente. **Sempre procure tais imagens antes de definir um projeto de sequenciamento.**

### 3.2. Perfis taxonômicos
> **Descrição:** Visualização dos padrões de táxons em cada grupo de amostra. Os agrupamentos podem ser realizados de acordo com diferentes fatores (metadados) e em diferentes níveis taxonômicos. É uma análise puramente visual, mas é capaz de fornecer insights sobre os diferenças e similaridades entre as condições, bem como a variabilidade do microbioma intragrupos.
---
- Para iniciar a exploração, clique em ***"Stacked bar/area plot"***;
- Note que, por padrão, o gráfico exibe os valores **absolutos** - o que é diretamente relacionado com a cobertura de cada amostra. Para tornar comparável, devemos considerar esses dados como **composicionais**, ou seja, tornar as abundâncias em valores **relativos**, os quais irão representar a porcentagem de cada táxon nas amostras. Para fazê-lo, altere o ***"Graph type"*** para `Stacked Bar [Percentage Abundance]`;
- Antes de submeter, vamos fazer mais algumas alterações:
- Em ***"Color scheme"*** definir `Palette_28`
- Trocar de ***"Merging small taxa with count"*** para ***"Showing top n taxa, with n ="*** e então definir o valor `15`;
- Em ***"Organize samples by"*** selecione `Trial` ***"then by:"*** `Env`.
- Agora obtemos os perfis comparáveis com as amostras agrupadas por **teste do patógeno** e **ambiente**. Lado a lado, teremos as amostras dos cultivares **resistentes (H)** e **susceptíveis (L)**.
- **Há variação visivel entre os cultivares? E dentro das amostras de uma mesma condição?**
- Mude para outros níveis taxonômicos mais específicos. Lembre-se de regular aos "top" de modo a balancear visibilidade e capacidade de descrição.

- Outra ferramenta interessante para visualização das abundancias dos táxons é a ***"Interactive pie chart"***
- Aqui as coisas podem ser vistas de forma mais interativa, permitindo relacionar rapidamente táxons com seus subníveis, além de possibilitar a avaliação de forma individual ou agrupada por certo fator.

### 3.3. Alfa diversidade
> **Descrição:** Medidas de alfa diversidade são usadas para avaliar a diversidade interna de uma amostra ou ambiente. Geralmente, são baseadas em dois parâmetros: **Contagem** e **distribuição (ou equitabilidade)** de espécies. Medidas como **"Riqueza Observada"** e **"Chao1"** são considerados indices de ***riqueza***, ou seja, levam em conta apenas a contagem de espécies únicas. Já medidas como **Shannon** e **Simpson** consideram não só a riqueza, mas também a abundância de cada espécie ao longo da amostra, sendo essas consideradas como verdadeiras medidas de ***diversidade***.

**Entre A e C: Qual o mais rico? E o mais diverso?**
**Entre B e C: Qual o mais rico? E o mais diverso?**

**A riqueza pode ser a mesma, mas a diversidade pode variar grandemente!**
---
- Vamos iniciar clicando em ***"Alpha-diversity analysis"***;
- Note que em um primeiro momento todas as amostras estão sendo consideradas;
- O fator `Group` trata-se da combinação de todos os outros fatores. Assim, os índices são calculados por amostra, mas as médias serão comparadas levando em conta esse fator. Troque para `Trial` e note que parece haver uma diferença (p < 0.05) entre a **riqueza** (***Chao1***) das amostras que receberam os diferentes patógenos.

- Troque para um índice de diversidade (Shannon, Simpson) e note que isso se mantém. Da mesma forma, o teste estatístico pode ser intercambiado entre os **paramétricos** (T-test/ANOVA) e **não-paramétricos** (Mann-Whitney/Kruskal-Wallis);
- Ainda assim, perceba que a variação intra-grupo é muito grande (é o que se recebe ao misturar diferentes ambientes e condições);
- Ao clicar em **`Downloads of the page > Result Table`** é possível obter os valores calculados para cada amostra.
### 3.4. Beta diversidade
> **Descrição:** A beta diversidade trata-se da comparação direta entre amostras. Isso é, ao contrário dos valores de alfa diversidade, os valores de beta div. não possuem significado intrínseco, de forma com que só fazem sentido quando comparados. A análise consiste em comparar a **composição** e calcular a **distância** entre essas de acordo com as **similaridades** (ou **dissimilaridades**). Em uma segunda etapa, as distancias devem ser simplificadas/reduzidas à apenas 2 ou 3 eixos, o que é feito a partir de métodos de ordenação como ***PCoA*** ou ***NMDS***. Por fim, é esperado que dois ambientes de composição semelhante situem-se bem próximos no gráfico, enquanto que aqueles com composições mais distintas deverão ficar mais distantes um do outro.
- Por padrão, os métodos utilizados são: `Bray-Curtis` para distância e `PCoA` para a ordenação. Há também uma comparação estatística, que avalia se existe diferença entre pelo menos dois grupos de acordo com o fator escolhido em ***"Experimental factor"***. Assim como os valores anteriores, o tipo de teste pode ser trocado de acordo com preferência/adequação aos dados;
- O fator `Group` é muito específico, vamos trocá-lo por `Env`. Note a diferença das amostras oriundas de **Solo** e **Rizosfera**, esse parece ser um dos fatores que definem o microbioma;
- Agora, troque por `Trial`. Também parece haver uma separação das amostras submetidas à cada desafio;
- Dessa vez, utilize o fator resistência (`Resistance`). Houve separação?
- Por fim, combine os fatores de maior expressão ao selecionar: `Env_Trial`. Note como ambos são capazes de capturar, com certa precisão, a variação das composições bacterianas das amostras.

### 3.5. Microbioma essencial
> **Descrição:** Alguns grupos de microrganismos tendem a permanecerem conservados independentemente das pressões as quais os microbiomas foram submetidos nas condições avaliadas. Dessa forma, a análise de **Microbioma essencial** (ou ***"Core microbiome"***) irá indicar quais táxons estão prevalentes/conservados na maior parte das amostras.
- Nos nossos dados, temos quatro diferentes cultivares, sendo amostras de diferentes habitats associados à planta (Rizosféra e Solo). **Será que teremos táxons conservados entre as amostras?**
- Níveis mais abrangentes, como **Filo** ou **Classe**, irão possuir um n. maior desses táxons, mas a medida em que caminhamos para níveis taxonômicos mais específicos, tais como **Gêneros** ou **Espécies** é que teremos uma melhor visão de quais são os microrganismos verdadeiramente conservados;
- Vamos iniciar a análise, entrando em ***"Core microbiome analysis"***;
- Note que a análise é feita por padrão ao nível das sequências (Feature-level), porém, essas são muito específicas e resultaram em pouco compartilhamento entre as amostras. Além disso, a prevalência padrão é muito baixa (**"Sample prevalence (%)"**), já que considera um táxon que aparece em apenas 20% das amostras como essencial;
- Vamos alterar o nível taxonômico (*Taxonomic level*) para `Phylum` e a prevalência para `75`;
- Verifique em cada nível taxonômico, desconsiderando os `Unclassified`;
- Os táxons encontrados representam aqueles que estão em pelo menos **75% das amostras**. Ele também permite ver o grau de prevalência em faixas de **abundância relativa**;

### 3.6. Abundância diferencial
> **Descrição:** Esse tipo de análise é de fundamental importância para estudos comparativos, pois irá apontar quais são as diferenças relacionadas aos fatores estudados. Assim, será possível identificar quais táxons foram estimulados e quais foram suprimidos em cada situação.
- Diversos métodos foram desenvolvidos para realizar tal análise. Alguns foram feitos especificamente para dados de microbioma (***LEfSe***) e outros adaptados de dados de seq. de RNA (***RNA-seq methods***), já que ambos seguem distribuição do tipo **binomial negativa**;
- Deve haver um certo cuidado para "comparar coisas comparáveis", já que misturar fatores pode interferir nos resultados obtidos. Por exemplo, ao comparar os grupos que receberam os diferentes patógenos (MP vs. VD) é interessante faze-lo por habitat, já que o habitat por si só pode ser um fator de variação de abundâncias.
- Dito isso, vamos iniciar a análise voltando ao **"Data filter"**. Na aba **"Sample Editor"**, exclua as amostras de solo, deixando apenas aquelas com padrão "RZ" na coluna da esquerda. Submeta e refaça as etapas de **filtragem** e **normalização**.

---
#### **RNA-seq**
- Clique em ***"RNA-seq methods"***;
- Note que por padrão o nível de comparação é situado nas sequências, altere para `Phylum`. Além disso, o fator que está sendo considerado é o `Group`, mude para `Trial`;
- **Quantos filos foram diferencialmente abundantes?**
- Clique na figura abaixo da coluna *"View"* para visualizar a distribuição da abundância de um dado Filo nas amostras sob cada inoculação de patógeno;

- Desça ao nível de gênero e perceba como as mudanças tendem a se intensificarem em níveis mais específicos
---
#### **LEfSe**
- Selecione o método ***"LEfSe"***, troque o ***Experimental factor*** para `Trial` e o ***P-value cutoff*** para `0.05`, considerando o valor não corrigido (`Original`);
- Assim, teremos as seq. que diferiram significativamente seguindo a metodologia do **LEfSe**.
:::success
- PS: Em caso de necessidade por esse método, a plataforma **Galaxy** possui sua implementação funcional, executada de forma bem semelhante ao feito no MA. [**Link**](https://huttenhower.sph.harvard.edu/galaxy/)
:::
#### **Métodos de classificação**
- Por fim, métodos de classificação por *machine learning* permitem identificar prováveis táxons marcadores (**biomarcadores**) de uma determinada **condição** - permitindo indentificá-las em outros conjuntos de dados. Contudo, esses métodos costumam exigir um 'n' amostral elevado para possuírem resultados válidos;
- Vamos começar clicando em ***"Random Forest"***;
- Ao invés de lidarmos com as sequências, vamos investigar se gêneros estão associados com a infecção. Troque *"Taxonomy level"* para `Genus`;
- Troque o *"Experimental factor"* para `Trial` e submeta;

- Note que que após cerca de 100 iterações, os erros convergiram para 0. Na tabela, vemos que as classificações com base nos gêneros presentes nas amostras possuíram 100% de acurácia;
- A aba ***"Important Features"*** revela quais foram os gêneros mais importantes para a definição de que se tratava de um patógeno ou outro.

### 3.7. Redes de coocorrência
> **Descrição:** As redes de coocorrência avaliam a relação entre táxons, sejam elas positivas ou negativas. Assim, será possivel avaliar situações em que certos organismos estimulam a presença de outros, ao passo que outros podem ser reduzidos ou eliminados na mesma proporção.
- As redes são criadas com bases em medidas de correlação clássicas, tais como **Pearson** e **Spearman**, ou ainda medidas criadas especialmente para dados de microbiomas - levando em consideração sua natureza esparsa, como o **SparCC**.
- Comece a análise clicando em ***"Correlation network (SparCC)"***;
- Ao executar, será possível obter a tabela com os valores de correlações em **`Downloads of the page > Correlation Table`**. Também, será gerado automaticamente uma representação gráfica dos relacionamentos;
- Vamos manter o algoritmo em `SparCC` e alterar o nível taxonômico para `Family`. Troque o fator experimental para `Trial`;
- Note que o valor mínimo de correlação é baixo, vamos capturar apenas as correlações fortes, alterando o valor para `0.75` e submeta;
- **0 a 0.3:** Correlação fraca/inexistente;
- **0.3 a 0.7:** Correlação média;
- **0.7 a 1:** Correlação forte.
- Os **nós** (nodes) representam os táxons (as cores internas se refere a abundância em cada condição) e as **ligações** (edges) representam as correlações significativas (``p-valor < 0.05``) e fortes (``Correlação min. +/- 0.75``).

- O gráfico é interativo, ao clicar duas vezes sobre um nó, será possível visualizar todas as ligações, sua natureza (positiva ou negativa), e também a abundância em cada condição do fator estudado.

- **Aula Cytoscape:** https://www.youtube.com/watch?v=cqqE_fN0jZU
### 3.8. Predição Funcional
> **Descrição:** A análise de predição funcional envolve estimar o potencial funcional de comunidades microbianas com base em sua composição taxonômica. Ela preenche a lacuna entre identificar “quem está lá” (taxonomia) e “o que eles podem estar fazendo” (função). Isso é obtido vinculando as funções conhecidas de microrganismos intimamente relacionados aos táxons identificados em um conjunto de dados.
**Como funciona?**
- O processo utiliza como dados de entrada ASVs (sequencias) derivadas do sequenciamento 16S rRNA. Esses métodos posicionam as sequencias dentro de uma árvore filogenética de referência e usa esse posicionamento para prever o conteúdo genético de cada táxon com base em suas relações evolutivas com organismos com genomas sequenciados. Essas previsões são então utilizadas para estimar o potencial funcional geral, que geralmente é resumido em termos de genes ortólogos, vias metabólicas ou categorias de enzimas, como vias KEGG, COGs ou vias MetaCyc.
- Apesar de sua utilidade, esses métodos tem limitações. A precisão da previsão depende muito da disponibilidade e integridade das referências do genoma para os táxons presentes na amostra, tornando-a mais confiável para táxons relacionados a organismos sequenciados e bem estabelecidos. Mais importante, esses métodos produzem hipóteses que exigem validação por meio de análises funcionais diretas, como metagenômica, metatranscriptomica ou metabolômica, para confirmar seus achados com precisão.
**Análise funcional no MicrobiomeAnalyst**
1. Carregue as tabelas funcionais.
2. Selecione os mesmos parâmetros de filtragem

3. Faça a predição funcional com o **Tax4Fun2**

4. Aguarde e faça o download da **KO Table**

5. Retorne a página inicial do MA e selecione **Shotgun Data Profiling** e carregue as tabelas


6. Faça algumas análises e baixe a tabela da **análise diferencial**

7. Formate a tabela adequadamente e utilize o **KEGG mapper** para reconstruir as vias afetadas pelas diferenças

**Link:** https://www.genome.jp/kegg/mapper/reconstruct.html
8. Relacione os dados com bancos de dados relevantes:
**Enzimas:** https://www.genome.jp/brite/ko00001
**CAZy:** https://www.cazy.org/
**PLaBAse:** https://plabase.cs.uni-tuebingen.de/pb/plabase.php; https://github.com/tpellegrinetti/PGPg_finder/blob/main/database/pathways_plabase.txt
**DRAM:** https://github.com/WrightonLabCSU/DRAM/tree/master/data
## Conclusões
- O Microbiome Analyst é uma ótima ferramenta para uma avaliação **inicial** e **geral** dos dados! Já que possui uma ampla gama de análises comumente realizadas para esse tipo de estudo.
- Contudo, há uma série de limitações, como:
- Baixa capacidade de customização das análises e gráficos;
- Limitações de processamento;
- Processos de filtragem poderiam ser mais práticos;
- Algumas implementações "bugadas";
- Desconexões constantes.
- Para um melhor controle, procure pacotes/programas que executem essas análises de forma completa. Alguns pacotes de R interessantes, são:
- **QIIME2:** https://use.qiime2.org/en/latest/tutorials/intro.html
- **microeco:** https://chiliubio.github.io/microeco_tutorial/
- **phyloseq:** https://joey711.github.io/phyloseq/
- **microbiome:** https://microbiome.github.io/tutorials/
- **metagMisc:** https://github.com/vmikk/metagMisc
- **ampvis2:** https://madsalbertsen.github.io/ampvis2/articles/ampvis2.html
- **DESeq2:** https://rdrr.io/bioc/DESeq2/man/DESeq2-package.html
- **igraph:** https://igraph.org/557
## **Para aprender mais:**
- **Curso Rede MaRe:** [Link](https://www.youtube.com/@RedeMaRe/streams)
- **Curso Rede de Genomas de Minas Gerais ("Abordagens para estudos de microbiomas: Do desenho experimental à análise de dados"):** [Link](https://www.youtube.com/playlist?list=PLgIKoLzguw28y7IKLA-ELiGDqFKo-kRgz)
- **Playlist: Microbiome Discovery (Prof Dan Knights - QIIME):** [Link](https://www.youtube.com/playlist?list=PLOPiWVjg6aTzsA53N19YqJQeZpSCH9QPc)
- **Playlist R: Microbiome data analysis and visualiziation (Prof Pat Schloss - MOTHUR):** [Link](https://www.youtube.com/playlist?list=PLmNrK_nkqBpIIRdQTS2aOs5OD7vVMKWAi)
- **Canal R Programming 101:** [Link](https://www.youtube.com/@RProgramming101/videos)
- **Playlist R: Data Carpentry for Biologists**: [Link](https://www.youtube.com/playlist?list=PLD8eCxFKntVH5EJmTBaZXWaU8cM_T9Lfl)
## **Artigos mencionados na última aula:**
https://www.nature.com/articles/s41522-020-00160-w
https://www.frontiersin.org/journals/microbiology/articles/10.3389/fmicb.2017.02224/full
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003531
https://journals.asm.org/doi/10.1128/msphere.00355-23