# Taller: QIIME 2
# Bioinformática 2023-1 @ FIAD UABC Ensenada
#### Instructor: Dante Alberto Magdaleno Moncayo
### Utilizar QIIME 2 para el análisis de muestras de microbioma humano.
Las muestras provienen de dos personas y se colectarón de cuatro partes distintas del cuerpo, en cinco tiempos distindos, el primero de los cuales siguió inmediatamente al uso de antibióticos. Un estudio basado en estas muestras se publicó originalmente en Caporaso et al. (2011).
Los datos utilizados en este taller se secuenciaron en un Illumina HiSeq utilizando el protocolo de secuenciación de 16S rRNA de la región hipervariable V4 16S del Earth Microbiome Project.
## Instalación de software y links:
* Seguir las intrucciones para instalar bioconda del siguiente link: [https://bioconda.github.io/user/install.html]
* Instalar QIIME2 versión qiime2-2023.2 del siguiente link: [https://docs.qiime2.org/2023.2/install/native/]
* Instalar FastQC.
## Instrucciones:
- Abrir la terminal y crear un directorio (Nombre que tu decidas).
- Moverse dentro del directorio creado y crear un directorio con nombre con el nombre que tu decidas.
#### Descargar los archivos del siguiente link:
https://drive.google.com/drive/folders/1jnXwBJCsR8lulO2IbRfKyhQAd_Jm-nv6?usp=share_link
El archivo sample-metadata.tsv moverlo dentro del primer directorio que creaste.
El clasificador moverlo dentro del primer directorio que creaste.
El archivo de barcodes moverlo dentro del segundo directorio que creaste.
El archivo de las secuencias moverlo dentro del segundo directorio que creaste.
### Importar las secuencias a artefacto .qza para trabajar en QIIME2
Las secuencias con las que vamos a trabajar provienen del sistema de secuenciación Illumina y son paired-end, estas secuencias se encuentran multiplexadas.
**Activar el ambiente de trabajo con el siguiente comando:**
`conda activate qiime2-2023.2`
**Importar secuencias con el siguiente comando:**
```
qiime tools import \
--type EMPSingleEndSequences \
--input-path (directorio_secuencias) \
--output-path (nombre).qza
```
## Desmultiplexado de las secuencias.
Para el desmultiplexado se requiere el metadata e indicar la columna que contiene los barcodes por muestra, el nombre de la columna es **barcode-sequence**.
Desmultiplexar secuencias con el siguiente comando:
```
qiime demux emp-single \
--i-seqs (secuencias_importadas).qza \
--m-barcodes-file sample-metadata.tsv \
--m-barcodes-column barcode-sequence \
--o-per-sample-sequences (nombre_seq_demultiplexadas).qza \
--o-error-correction-details demux-details.qza
```
`qiime demux summarize --i-data (nombre_seq_demultiplexadas).qza --o-visualization (nombre_seq_demultiplexadas).qzv`
### Analizar el visualizador demux.qzv con el siguiente comando:
`qiime tools view (nombre_seq_demultiplexadas).qzv`
### Denoise con dada2
```
qiime dada2 denoise-single \
--i-demultiplexed-seqs (nombre_seq_demultiplexadas).qza \
--p-trim-left 0 \
--p-trunc-len 120 \
--o-representative-sequences rep-seqs-dada2.qza \
--o-table table-dada2.qza \
--o-denoising-stats stats-dada2.qza
```
### Generando los .qzv
```
qiime metadata tabulate \
--m-input-file stats-dada2.qza \
--o-visualization stats-dada2.qzv
```
`mv rep-seqs-dada2.qza rep-seqs.qza`
`mv table-dada2.qza table.qza`
### Tabla resumen
```
qiime feature-table summarize \
--i-table table.qza \
--o-visualization table.qzv \
--m-sample-metadata-file sample-metadata.tsv
```
```
qiime feature-table tabulate-seqs \
--i-data rep-seqs.qza \
--o-visualization rep-seqs.qzv
```
### Árbol filogenético
```
qiime phylogeny align-to-tree-mafft-fasttree \
--i-sequences rep-seqs.qza \
--o-alignment aligned-rep-seqs.qza \
--o-masked-alignment masked-aligned-rep-seqs.qza \
--o-tree unrooted-tree.qza \
--o-rooted-tree rooted-tree.qza
```
### Análisis de alfa y beta diversidad
Los análisis de diversidad en QIIME 2 están disponibles con q2-diversity, que realiza el cálculo de alfa y beta diversidad. Se aplica el método filogenético de métricas centrales, que rarifica una FeatureTable[Frequency] a una profundidad especificada por el usuario, calcula varias métricas de alfa y beta diversidad, y genera gráficos de análisis de coordenadas principales (PCoA) utilizando Emperor para cada uno de los métricas de beta diversidad. Las métricas calculadas por defecto son:
### Alfa Diversidad
Índice de diversidad de Shannon (una medida cuantitativa de la riqueza de la comunidad)
Características observadas (una medida cualitativa de la riqueza de la comunidad)
Diversidad filogenética de Faith (una medida cualitativa de la riqueza de la comunidad que incorpora relaciones filogenéticas entre las características)
Uniformidad (o Uniformidad de Pielou; una medida de la uniformidad de la comunidad)
### Beta Diversidad
Distancia de Jaccard (una medida cualitativa de la disimilitud de la comunidad)
Distancia de Bray-Curtis (una medida cuantitativa de la disimilitud de la comunidad)
Distancia UniFrac no ponderada (una medida cualitativa de la disimilitud de la comunidad que incorpora relaciones filogenéticas entre las características)
Distancia UniFrac ponderada (una medida cuantitativa de la disimilitud de la comunidad que incorpora relaciones filogenéticas entre las características)
Un parámetro importante que debe proporcionarse a este script es --p-sampling- depth, que es la profundidad de muestreo uniforme (es decir, rarefacción). Debido a que la mayoría de las métricas de diversidad son sensibles a diferentes profundidades de muestreo en diferentes muestras, este script submuestreará aleatoriamente los conteos de cada muestra al valor proporcionado para este parámetro. Por ejemplo, si proporciona --p-sampling- depth 500, este paso submuestreará los conteos en cada muestra sin reemplazo para que cada muestra en la tabla resultante tenga un conteo total de 500. Si el conteo total para cualquier muestra ) son menores que este valor, esas muestras se eliminarán del análisis de diversidad. Elegir este valor es complicado, se recomienda hacer su elección revisando la información presentada en el archivo table.qzv que se creó anteriormente. Elejir el valor que sea lo más alto posible (para que conserve más secuencias por muestra) mientras excluye la menor cantidad de muestras posible.
Revisa el artefacto table.qzv QIIME 2 y, en particular, la pestaña Detalles de la muestra interactiva en esa visualización.
¿Qué valor eliges utilizar para --p-sampling- depth?
¿Cuántas muestras se excluirán del análisis con base en esta elección?
¿Cuántas secuencias totales analizará en el comando core-metrics-phylogenetic?
```
qiime diversity core-metrics-phylogenetic \
--i-phylogeny rooted-tree.qza \
--i-table table.qza \
--p-sampling-depth 1103 \
--m-metadata-file sample-metadata.tsv \
--output-dir core-metrics-results
```
```
qiime diversity alpha-group-significance \
--i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
--m-metadata-file sample-metadata.tsv \
--o-visualization core-metrics-results/faith-pd-group-significance.qzv
```
```
qiime diversity alpha-group-significance \
--i-alpha-diversity core-metrics-results/evenness_vector.qza \
--m-metadata-file sample-metadata.tsv \
--o-visualization core-metrics-results/evenness-group-significance.qzv
```
Visualiza la gráfica faith-pd-group-significance.qzv que se encuentra dentro del directorio core-metrics-results.
Visualiza la gráfica evenness-group-significance.qzv que se encuentra dentro del directorio core-metrics-results.
¿Qué columnas de metadatos de muestras categóricas están más fuertemente asociadas con las diferencias en la riqueza de la comunidad microbiana?
¿Son estas diferencias estadísticamente significativas?
```
qiime diversity beta-group-significance \
--i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
--m-metadata-file sample-metadata.tsv \
--m-metadata-column body-site \
--o-visualization core-metrics-results/unweighted-unifrac-body-site-significance.qzv \
--p-pairwise
```
```
qiime diversity beta-group-significance \
--i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
--m-metadata-file sample-metadata.tsv \
--m-metadata-column subject \
--o-visualization core-metrics-results/unweighted-unifrac-subject-group-significance.qzv \
--p-pairwise
```
Visualiza la gráfica unweighted-unifrac-body-site-significance.qzv que se encuentra dentro del directorio core-metrics-results.
Visualiza la gráfica unweighted-unifrac-subject-group-significance.qzv que se encuentra dentro del directorio core-metrics-results.
¿Las asociaciones entre sujetos y las diferencias en la composición microbiana son estadísticamente significativas?
¿Qué hay de los sitios del cuerpo?
¿Qué pares específicos de sitios del cuerpo son significativamente diferentes entre sí?
### Gráficas con emperor
```
qiime emperor plot \
--i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
--m-metadata-file sample-metadata.tsv \
--p-custom-axes days-since-experiment-start \
--o-visualization core-metrics-results/unweighted-unifrac-emperor-days-since-experiment-start.qzv
```
```
qiime emperor plot \
--i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \
--m-metadata-file sample-metadata.tsv \
--p-custom-axes days-since-experiment-start \
--o-visualization core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv
```
Visualiza la gráficabray-curtis-emperor-days-since-experiment-start.qzv que se encuentra dentro del directorio core-metrics-results.
Visualiza la gráfica unweighted-unifrac-emperor-days-since-experiment-start.qzv que se encuentra dentro del directorio core-metrics-results.
¿Los gráficos de Emperor concuerdan con los otros análisis de beta diversidad que se han realizado?.
¿Qué diferencias observas entre los gráficos UniFrac no ponderados y PCoA de Bray-Curtis?
### Gráfica de rarefacción
```
qiime diversity alpha-rarefaction \
--i-table table.qza \
--i-phylogeny rooted-tree.qza \
--p-max-depth 4000 \
--m-metadata-file sample-metadata.tsv \
--o-visualization alpha-rarefaction.qzv
```
### Análisis taxonómico
```
qiime feature-classifier classify-sklearn \
--i-classifier gg-13-8-99-515-806-nb-classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
```
```
qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
```
```
qiime taxa barplot \
--i-table table.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample-metadata.tsv \
--o-visualization taxa-bar-plots.qzv
```
Visualiza las muestras en el Nivel 2 (el nivel 2 corresponde a phylum), después por sitio corporal, luego por sujeto y luego por días desde el inicio del experimento.
¿Cuáles son los phyla dominantes en cada sitio del cuerpo?
¿Se observa algún cambio constante entre los dos sujetos entre los días desde el inicio del experimento 0 y los puntos de tiempo posteriores?
Entregables:
-Captura de pantalla de lo que despliega la terminal al correr cada uno de los comandos.
-Respuestas de las preguntas plantedas en el taller.
## Fecha límite de entrega: jueves 11 de mayo a las 10 horas en la plataforma google classroom.
# Nota: Taller que se entregue posterior a la fecha límite no será evaluado.