###### tags: `UAX` `Estudiantes` `Doctorado` # Actividad: Análisis de Expresión génica con microarrays usando GEO2R <font color = 'gray'> <p style="text-align:right;">Prof.: Laura J. Marcos-Zambrano </font> ![](https://i.imgur.com/r6p2U1g.png) Aclarando términos y formatos. Cualquier duda revisa la web de [GEO](https://www.ncbi.nlm.nih.gov/geo/). :::info **GSM:** GEO Sample **GSE:** GEO Series (listas de archivos GSM que juntos forman un solo experimento) **GDS:** GEO Dataset. Una serie GEO (GSExxx) es un registro original proporcionado por el remitente que resume un estudio. El personal de GEO vuelve a ensamblar estos datos en un dataset GEO (GDSxxx). Un conjunto de datos representa una colección de muestras biológica y estadísticamente comparables procesadas utilizando la misma plataforma. La información que refleja las variables experimentales se proporciona a través de subconjuntos de DataSet. ::: La clase de objetos `ExpressionSet` se usa comúnmente para almacenar datos de experimentos de microarrays. Un objeto de clase ExpressionSet típico contiene los siguientes datos: **assayData** intensidades crudas o procesadas, donde cada fila corresponde a una sonda y cada columna corresponde a una muestra **phenoData** metadatos experimentales, donde cada fila corresponde a una muestra. **featureData** Esta es una anotación opcional de las características (por ejemplo, genes o transcripciones) medidas en un experimento. **annotation** un vector de caracteres que especifica el nombre de la plataforma ![](https://i.imgur.com/dHrWoTb.png) :::success Vamos a trabajar con datos de GEO (ID de acceso: [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146)). El experimento se hizo en una línea de células cancerosas crecidas en cultivo. Las células se cultivan en MEGM (donde retienen un fenotipo epitelial) o SCGM (donde se someten a una transición epitelial-mesencial reversible, o EMT). Se realizó un análisis de la expresión génica utilizando el microarray [hgu133plus2](https://bioconductor.org/packages/release/data/annotation/html/hgu133plus2.db.html) para identificar los genes asociados con el proceso EMT. ::: ## Obtener datos de GEO Si navegas en [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146), verás que hay varios formatos de archivo diferentes disponibles para descargar. :::info [**SOFT files**](https://www.ncbi.nlm.nih.gov/geo/info/soft.html) Es el formato que se suele usar para enviar archivos a GEO. Contiene mucha información sobre el experimento (cumplimiento de MIAME: Minimum Information About a Microarray Experiment) y también contiene las estimaciones para cada gen o transcripción, en un formato de archivo personalizado. **Archivo [MINiML](https://www.ncbi.nlm.nih.gov/geo/info/MINiML.html)** El formato de archivo MINiML utiliza XML, un lenguaje de marcado legible por computadora. Tiene la misma información que SOFT, pero en un formato diferente. **Series matrix file** (Archivo de matriz de serie) El archivo de matriz está destinado a ser legible directamente en una hoja de cálculo. Generalmente, estos archivos no tienen toda la información proporcionada por SOFT, pero es fácil trabajar con ellos. **Archivos complementarios** Los archivos `.CEL` tienen los datos originales sin procesar. :eye-in-speech-bubble: Como queremos procesarlo nosotros mismos, eso es lo que necesitaremos ::: ### Realizar análisis directamente con GEO2R [GEO2R](https://www.ncbi.nlm.nih.gov/geo/geo2r/) es es una herramienta web interactiva que permite a los usuarios comparar dos o más grupos de muestras en una serie GEO para identificar genes que se expresan de manera diferencial en las diferentes condiciones experimentales. Los resultados se presentan como una tabla de genes ordenados por valor P y como una colección de gráficos para ayudar a visualizar los genes expresados de manera diferencial y evaluar la calidad del conjunto de datos. GEO2R utiliza una variedad de paquetes R del proyecto Bioconductor. **Datos de microarrays** GEO2R utiliza GEOquery y limma para realizar análisis de expresión diferencial utilizando tablas de datos procesados originales proporcionados por el remitente como entrada. GEOquery analiza los datos GEO en estructuras de datos R que pueden ser utilizadas por otros paquetes R. limma (modelos lineales para análisis de microarrays) es una prueba estadística para identificar genes expresados diferencialmente en datos de microarrays. ## Actividad Utilizaremos el experimento [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146). **Diseño del Experimento** - ¿Cuál es la pregunta biológica que busca responder el experimento GSE33146? - ¿Qué representan las dos condiciones experimentales en este dataset? **Sobre el análisis con GEO2R:** - ¿Qué pasos realiza GEO2R para identificar genes diferencialmente expresados? - ¿Qué representan las métricas "log2 fold change" y "adjusted p-value"? - ¿Por qué es importante ajustar los valores p en el análisis? **Visualizaciones:** Vamos a centrarnos en el Vulcano plot y el diagrama de Venn. Reanaliza el experimento usando un *P* value < 0.05 y log2 fold change de 2. - Sobre el **Vulcano plot**, responde: - ¿Cómo identificarías genes que son altamente significativos y tienen cambios de expresión grandes? - ¿Qué diferencia hay entre un gen ubicado en el centro del gráfico y uno en los extremos? - Sobre el **Diagrama de Venn**, responde: - ¿Qué significa el número en el interior del círculo? - ¿Qué representa el número fuera del círculo? :::warning Descarga la lista de genes diferencialmente expresados porque la usaremos en la siguiente parte de la actividad. ::: # Parte II: Análisis de enriquecimiento funcional ![image](https://hackmd.io/_uploads/SyLbdXzXkl.png) ## GO enrichment analysis: **1. Datos a utilizar:** * Resultados del Parte I de la actividad: - Listado de genes [UP](https://drive.google.com/file/d/1EtY4IYd0aHF3HtDtakH9gLU_YZX1QJsa/view?usp=sharing) regulated en medio de cultivo SCGM. - Listado de genes [Down](https://drive.google.com/file/d/1GRZXYEpZAf_pSPeyvmA4KAzShZ99Vfx5/view?usp=sharing) Regulated en medio de cultivo SCGM. **2. Aplicación web [ShinyGO](http://bioinformatics.sdstate.edu/go/).** ## Tutorial Pegar la lista de genes Sobreexpresados en la Caja de ShinyGo, dejar seleccionado "Human" como especie y hacer click en Submit. Repetir con la lista de genes infraregulados. ![image](https://hackmd.io/_uploads/SkJRvQMmJl.png) ## Términos Clave **Enrichment FDR (False Discovery Rate):** Es el valor ajustado que mide la significancia estadística del enriquecimiento de una vía. Valores pequeños indican que es menos probable que el resultado sea un falso positivo. Ejemplo: Un FDR de 4.5E-08 significa una alta significancia estadística. **nGenes:** Número de genes en tu lista que están asociados con esa vía específica. Ejemplo: Para la vía "Metabolic pathways", 182 genes de los infraregulados están asociados. **Pathway Genes:** Número total de genes conocidos asociados con esa vía en la base de datos usada (por ejemplo, KEGG). Ejemplo: "Metabolic pathways" tiene 1538 genes conocidos en la base de datos. **Fold Enrichment:** Es la proporción entre la cantidad observada de genes en tu lista para una vía y la cantidad esperada si fuera al azar. Un valor mayor a 1 indica un enriquecimiento. Ejemplo: En la vía "Human papillomavirus infection" (infraregulados), el valor es 2.5, indicando que la representación es 2.5 veces mayor que lo esperado por azar. **Pathways:** El nombre de la ruta metabólica, señalización, o proceso biológico asociado. ## Ejercicio - Ejecuta un enriquecimiento de los genes up regulated y downregulated. - Observa las vías enriquecidas en cada caso y los diferentes tipos de visualizaciones que ofrece la web: Diagramas, redes y vías metabólicas. - Responde las siguientes preguntas: 1. ¿Por qué las rutas metabólicas (*Metabolic pathways*) están significativamente enriquecidas en los genes infraregulados? 2. Relaciona las rutas del ciclo celular (*Cell cycle*) y ubiquitina (*Ubiquitin mediated proteolysis*)con el impacto funcional de los genes sobreexpresados. 3. ¿Qué conexiones biológicas puedes inferir entre las rutas comunes (Ejemplo: "*Pathways in cancer*") en ambas listas? ![](https://i.imgur.com/ibfhAQt.jpg)