# KBase: Estudio de Comunidades Microbianas ## Introducción La metagenómica es una poderosa herramienta que permite **estudiar comunidades microbianas completas al analizar su material genético directamente**. Esto supera las limitaciones de las técnicas de cultivo tradicionales y proporciona una comprensión integral de la diversidad microbiana en diferentes entornos. ![](https://hackmd.io/_uploads/BkS1BqMzp.png) *Representación esquemática de los diferentes enfoques utilizados en el campo de la investigación metagenómica* La metagenómica es valiosa para la **monitorización ambiental**, **aplicaciones biotecnológicas** y la **comprensión de complejas interacciones microbianas**, y ha revolucionado nuestra comprensión de la vida microbiana, con implicaciones en campos que van desde la conservación ambiental hasta la salud humana. :::info **link referencia:** https://www.csbj.org/article/S2001-0370(21)00493-1/fulltext ::: --- ## Plataforma KBase KBase es la **primera plataforma de ciencia de datos a gran escala** que permite a los usuarios cargar sus propios datos, analizar los junto con datos públicos y de colaboradores, construir modelos cada vez más realistas y compartir y publicar flujos de trabajo y conclusiones reproducibles (*KBase platform* ). ![](https://hackmd.io/_uploads/Skpn6Yfzp.png) Esta plataforma integra datos y herramientas en una **interfaz gráfica unificada**. Los usuarios ya no necesitan realizar análisis en múltiples sistemas para crear y ejecutar flujos de trabajo sofisticados de biología de sistemas. Permitiendo a los usuarios realizar **análisis a gran escala y combinar múltiples líneas de evidencia** para modelar la fisiología microbiana y vegetal y la dinámica comunitaria (*KBase platform*). - Funcionalidades de la plataforma KBase-Predictive Biology: ![](https://hackmd.io/_uploads/rkJUeqGf6.png) :::info **links referencia:** https://www.nature.com/articles/nbt.4163 https://www.kbase.us/about/ ::: --- ## Interfaz gráfica de KBase Antes de conocer el espacio de trabajo de la plataforma es necesario crear un cuenta. Puedes vinvular un email institucional o personal. :::warning **link sign up:** https://narrative.kbase.us/#signup ::: Luego de tener acceso podrás interactuar con las diferentes **Narrativas** ![](https://hackmd.io/_uploads/HJE5jqzM6.png) --- ## WorkFlow para procesamiento de datos Para el procesamiento de datos de las muestras de **Suelo**, **Pastaje** y **Rizosfera**, será empleado el siguiente workflow, en donde se describe los **steps** principales conjuntamente con las **herramientas bioinformáticas** (*iconos*). ![](https://hackmd.io/_uploads/BJfATYGza.png) :::warning **link narrativa:** https://narrative.kbase.us/narrative/160244 ::: ### - **Step-01: Data de Secuenciamiento: características generales** La evaluación inicial de las estadísticas de una secuenciación metagenómica es fundamental para **garantizar la calidad de los datos obtenidos**. Para ello, se analizan diversos parámetros, como el **número de lecturas**, **la calidad media de la secuencia**, **el contenido de GC** y el **tamaño medio de la secuencia.** - **El número de lecturas** es importante para garantizar una cobertura completa de los genomas presentes. - **La calidad media de las secuencias** indica la fiabilidad de las bases identificadas en cada lectura. - **El contenido de GC** puede ayudar a identificar contaminaciones o sesgos, ya que los distintos organismos tienen contenidos de GC diferentes. - **La longitud media de las secuencias** es importante porque las secuencias muy cortas o muy largas pueden plantear problemas para el ensamblaje y la cartografía del genoma. :::success **Esta evaluación es crucial porque:** - Garantiza la fiabilidad de los datos para los análisis posteriores; - Ayuda a optimizar los pasos posteriores del procesamiento de datos; - Permite la identificación temprana de contaminaciones o sesgos; - Evita malgastar recursos en datos de baja calidad. ::: Por lo tanto, la evaluación inicial es un paso vital que influye en todos los análisis metagenómicos posteriores y en la calidad de los resultados. :::danger :notebook: **Actividad a ser realizada**: - ¿Cuántas lecturas se generaron para las muestras de suelo y rizosfera? - ¿Cuál es el tamaño medio de las secuencias generadas? - ¿Cuál es la calidad media de las secuencias en cada tipo de muestra? - ¿Cuál es el porcentaje de GC (G+C%) en cada tipo de muestra? ::: ### - **Step-02: Control de calidad de reads** La calidad de las secuencias obtenidas en un experimento de secuenciación no es uniforme en toda su longitud. A menudo, la calidad de las bases tiende a disminuir en los extremos de las secuencias, lo cual es un fenómeno común en plataformas de secuenciación como Illumina. **Por lo tanto, es crucial evaluar la calidad de las secuencias en relación con su posición para garantizar la precisión y fiabilidad de los datos analizados.** :::success **FastQC** es una herramienta que proporciona un **rápido análisis visual de la calidad de los datos a lo largo de toda la longitud de las secuencias**. Esto ayuda a identificar las regiones en las que la calidad de las bases cae por debajo de un umbral aceptable, lo que puede ser indicativo de problemas en el proceso de secuenciación o en la preparación de las bibliotecas. Por ejemplo, la presencia de adaptadores residuales o contaminantes puede afectar negativamente a la calidad de las secuencias. ::: :::warning :computer: *Herramienta*: **Assess Read Quality with FastQC - v0.12.1** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/rJ8LOjGG6.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/H1eauifMa.png) :::danger :notebook: **Actividad a ser realizada**: - ¿Hay regiones de baja calidad (Q < 20) en ambas muestras? En caso afirmativo, ¿qué región? - ¿Hay adaptadores de secuenciación en las muestras? ::: ### - **Step-03: Trimado de reads** El **recorte de secuencias es un paso esencial en el análisis de metagenomas para garantizar la calidad de los datos antes de llevar a cabo análisis posteriores**, como el ensamblaje del genoma o el análisis de la diversidad. En el caso de los datos de secuenciación de nueva generación (NGS) de extremo pareado, una herramienta habitual para el recorte es **Trimmomatic**. :::success **Trimmomatic** es una herramienta de línea de comandos rápida, flexible y de código abierto que resulta especialmente útil para recortar datos de extremo pareado. **Elimina los adaptadores de secuencia y las bases de baja calidad de los extremos de cada lectura antes de alinear de nuevo las lecturas emparejadas**. ::: :::info - **Para cortar al principio de la secuencia:** **Head Crop Length:** Establezca el valor desde 0 hasta el valor que desee recortar. **Por ejemplo**, Head Crop Length 10 recortará las 10 últimas secuencias. - **Para recortar al final de la secuencia:** **Post Tail Crop Length:** Establezca el valor desde el final de la secuencia hasta donde las secuencias sean satisfactorias. **Por ejemplo**, Post Tail Crop Length 110 cortará 40 bases. Esto corresponde a 150 a 110 (40 pb). ::: :::warning :computer: *Herramienta*: **Trim Reads with Trimmomatic - v0.36** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/By0Fpjzfp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/SJN10sfGp.png) :::warning :computer: *Herramienta*: **Assess Read Quality with FastQC - v0.12.1** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/SkXpCsMGp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/Byro1nMMT.png) ### - **Step-04: Clasificación taxonómica de reads (*Read-Based Taxonomy*)** La clasificación taxonómica de las lecturas metagenómicas es un paso crucial para comprender la **composición microbiana de una muestra**. **Kaiju** es una herramienta popular para esta tarea, ya que utiliza un** método rápido de búsqueda basado en proteínas para clasificar las secuencias de lecturas en taxonomías**. :::success **Kaiju** convierte las s**ecuencias de nucleótidos de las lecturas en secuencias de aminoácidos** y, a continuación, **compara estas secuencias con una base de datos de proteínas de referencia**. Esto permite una clasificación más rápida y precisa, incluso cuando las lecturas proceden de organismos que no están totalmente representados en las bases de datos genómicas. ::: :::warning :computer: *Herramienta*: **Classify Taxonomy of Metagenomic Reads with Kaiju - v1.9.0** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/SJo87hGza.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/rkyq7hGfT.png) ![](https://hackmd.io/_uploads/HkHzS2zzT.png) :::danger :notebook: **Actividad a ser realizada**: - ¿Cuáles son los filos más abundantes en las muestras evaluadas? - ¿Qué géneros son los más abundantes? ::: ### - **Step-05: Ensamblaje de contigs a partir de reads** El ensamblaje de lecturas metagenómicas en contigs es un paso fundamental en el análisis de datos metagenómicos. Este paso consiste en **organizar y unir secuencias superpuestas de lecturas para formar contigs**, que son segmentos continuos de ADN reconstruidos a partir de datos de secuenciación. El ensamblaje es crucial porque **transforma los millones de lecturas cortas generadas durante la secuenciación en fragmentos de ADN más grandes y manejables**, lo que facilita análisis posteriores como la clasificación taxonómica y la anotación funcional. :::success **MEGAHIT** es un **ensamblador de genomas de alta eficiencia y baja memoria diseñado específicamente para ensamblar metagenomas a partir de lecturas cortas**. - Utiliza un enfoque basado en grafos De Bruijn comprimidos y varias técnicas de optimización para **ensamblar contigs de forma rápida y eficiente**, incluso en hardware con recursos limitados. - MEGAHIT es capaz de **manejar la gran diversidad y complejidad de los datos metagenómicos**, lo que lo convierte en una valiosa herramienta para los investigadores en el campo de la metagenómica. ::: :::warning :computer: *Herramienta*: **Assemble Reads with MEGAHIT v1.2.9** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/BkZ2unMMp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/HkPbt2GGp.png) :::danger :notebook: **Actividad a ser realizada**: - ¿Cuál es el número de contigs generados? - ¿Cuál es el tamaño medio de los contigs generados (N50)? ::: ### - **Step-06: Anotación funcional de contigs** La anotación funcional es un paso crítico en el análisis de metagenomas, que **permite la identificación y categorización de genes y otras regiones funcionales en contigs ensamblados**. - **DRAM** (*Distilled and Refined Annotation of Metabolism*) es una herramienta de anotación funcional desarrollada específicamente para la anotación de metagenomas ensamblados (MAGs) y contigs. :::success **DRAM** es una herramienta completa que no **sólo anota genes y rutas metabólicas, sino que también permite eliminar redundancias y agregar anotaciones**, lo que facilita la interpretación de los resultados. - Utiliza una combinación de bases de datos, como **KEGG, UniRef, dbCAN y Pfam**, para proporcionar anotaciones completas y precisas. Además, DRAM también puede identificar genes implicados en la producción de metabolitos secundarios, un recurso útil para estudios de ecología microbiana y bioprospección. ::: :::warning :computer: *Herramienta*: **Annotate Metagenome Assembly and Re-annotate Metagenome with RASTtk - v1.073** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/B14253zzT.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/HyexeinffT.png) ### - **Step-07: Ensamblaje de genomas a partir de contigs (*binning*)** El proceso de binning es un paso crucial en el análisis metagenómico, en el que los contig**s ensamblados se agrupan en "bins" que, idealmente, corresponden a genomas de microorganismos individuales**. Este paso es esencial para separar contigs pertenecientes a diferentes organismos, facilitando el análisis taxonómico y funcional de los microorganismos presentes en la muestra. :::success - **MetaBAT2** es una de las herramientas de binning más populares y eficaces. **Utiliza información sobre la abundancia de contigs** (es decir, el número de lecturas asignadas a cada contig) y **la composición tetranucleotídica de los contigs para agruparlos eficazmente**. - **MetaBAT2** utiliza un algoritmo adaptativo que maximiza la precisión del binning, incluso en muestras complejas con una gran diversidad de microorganismos. ::: :::warning :computer: *Herramienta*: **MetaBAT2 Contig Binning - v1.7** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/SkFgp2MMp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/B1_V62Gz6.png) :::danger :notebook: **Actividad a ser realizada**: ¿Cuántos paquetes se han generado para cada muestra? ::: ### - **Step-08: Filtrado de los MAG** En el análisis metagenómico, el filtrado de los MAG en función de su integridad y contaminación es un paso esencial para **garantizar la calidad y precisión de los datos analizados.** :::info - **Exhaustividad**: - La integridad se refiere al grado de reconstrucción de un genoma. - Un genoma completo al 100% tendría todas las regiones representadas en los contigs ensamblados. Sin embargo, debido a diversos factores, como las limitaciones de la tecnología de secuenciación o la presencia de regiones genómicas repetitivas, es habitual que los genomas reconstruidos sean parciales. - La evaluación de la integridad es esencial para comprender hasta qué punto los contigs ensamblados son representativos del genoma real del organismo. - **Contaminación**: - La contaminación se refiere a la presencia de ADN de organismos extraños en un contenedor. Por ejemplo, si un contenedor sólo debe contener el ADN de una especie bacteriana específica, la presencia de ADN de otra especie se consideraría contaminación. - La contaminación puede producirse por varias razones, como errores en el proceso de binning o contaminación de la muestra durante la recogida o la preparación. - Evaluar y filtrar la contaminación es crucial para garantizar que los datos analizados son representativos de los organismos de interés. ::: :::warning :computer: *Herramienta*: **Filter Bins by Quality with CheckM - v1.0.18** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/ByoKfTGMp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/S1e0G6ff6.png) :::danger :notebook: **Actividad a ser realizada**: - ¿Cuántos MAG se consideran buenos (integridad > 70 y contaminación < 5)? - ¿Cuántos MAG se consideran óptimos (integridad > 90 y contaminación < 5)? ::: ### - **Step-09: Clasificación taxonómica de los MAG** Los MAG, o **genomas ensamblados a partir de metagenomas**, son genomas de organismos que se han ensamblado y recuperado directamente a partir de datos metagenómicos. Estos genomas suelen representar organismos difíciles o imposibles de cultivar en el laboratorio, lo que los convierte en fundamentales para comprender la diversidad microbiana. La clasificación taxonómica de los MAG es un paso esencial en el análisis metagenómico, ya que **ayuda a identificar los organismos presentes en una muestra y a comprender su diversidad y sus posibles funciones**. :::success **GTDBtk** es una popular herramienta para la clasificación taxonómica de los MAG. - La GTDB, o Genome Taxonomy Database, es una base de datos taxonómica alternativa que utiliza un árbol filogenético basado en proteínas conservadas para clasificar los genomas de forma más precisa y coherente. - GTDBtk es una herramienta que permite a los usuarios clasificar sus propios genomas (como los MAG) utilizando el marco taxonómico de la GTDB. ::: :::warning :computer: *Herramienta*: **Classify Microbes with GTDB-Tk - v1.7.0** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/rJCk4TMG6.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/Byh7NaGf6.png) :::warning :computer: *Herramienta*: **Extract Bins as Assemblies from BinnedContigs - v1.0.2** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/BkHfHTGGp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/rk_NHaMMp.png) :::danger :notebook: **Actividad a ser realizada**: ¿Cuál es el filo de los MAG para cada tipo de muestra? ¿Cuál es el género de cada MAG en cada tipo de muestra? ::: ### - **Step-10: Anotación funcional de los MAG** La anotación funcional es el proceso de **identificación de las funciones biológicas de las secuencias de ADN de un genoma**. - En el caso de los genomas metagenómicos ensamblados (MAG), esto significa **identificar los genes presentes y las funciones biológicas que desempeñan**. - Se trata de una etapa crucial en el análisis metagenómico, ya que permite saber qué **hacen los organismos presentes en la muestra**, es decir, en qué procesos biológicos participan. :::success **DRAM** (*Distilled and Refined Annotation of Metabolism*) es una popular herramienta para la anotación funcional de los MAG. - Fue diseñada para proporcionar anotaciones funcionales destiladas y refinadas para genomas recuperados de metagenomas. - DRAM recopila anotaciones de varias fuentes y las destila en anotaciones consolidadas y refinadas. - Además, proporciona una visión general del potencial metabólico del genoma, identificando rutas metabólicas completas y parciales. ::: :::warning :computer: *Herramienta*: **Annotate and Distill Assemblies with DRAM** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/Syzmj6fz6.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/H1eBj6GMp.png) ![](https://hackmd.io/_uploads/HkqPjpzMa.png) :::danger :notebook: **Actividad a ser realizada**: - ¿Qué funciones del nitrógeno se encontraron para los MAG del suelo y la rizosfera? - ¿Qué genes/vías se encontraron asociados a las enzimas activas de carbohidratos (CAZy)? ::: ### - **Step-11: Abundancia Relativa (%) de MAGs** :::warning :computer: *Herramienta*: **Align Reads using Bowtie2 - v2.3.2** ::: - **Configuración de analisis** ![](https://hackmd.io/_uploads/rJFRo6ffp.png) - **Muestra de Resultado** ![](https://hackmd.io/_uploads/Synl26fMa.png) ![](https://hackmd.io/_uploads/rkuX2Tzf6.png) ---