###### tags: `UAX` `Estudiantes`
# Taller Análisis de Expresión génica con microarrays usando GEO2R
<font color = 'gray'>
<p style="text-align:right;">Prof.: Laura J. Marcos-Zambrano </font>

Aclarando términos y formatos. Cualquier duda revisa la web de [GEO](https://www.ncbi.nlm.nih.gov/geo/).
:::info
**GSM:** GEO Sample
**GSE:** GEO Series (listas de archivos GSM que juntos forman un solo experimento)
**GDS:** GEO Dataset.
Una serie GEO (GSExxx) es un registro original proporcionado por el remitente que resume un estudio. El personal de GEO vuelve a ensamblar estos datos en un dataset GEO (GDSxxx). Un conjunto de datos representa una colección de muestras biológica y estadísticamente comparables procesadas utilizando la misma plataforma. La información que refleja las variables experimentales se proporciona a través de subconjuntos de DataSet.
:::
La clase de objetos `ExpressionSet` se usa comúnmente para almacenar datos de experimentos de microarrays. Un objeto de clase ExpressionSet típico contiene los siguientes datos:
**assayData**
intensidades crudas o procesadas, donde cada fila corresponde a una sonda y cada columna corresponde a una muestra
**phenoData**
metadatos experimentales, donde cada fila corresponde a una muestra.
**featureData**
Esta es una anotación opcional de las características (por ejemplo, genes o transcripciones) medidas en un experimento.
**annotation**
un vector de caracteres que especifica el nombre de la plataforma

:::success
Vamos a trabajar con datos de GEO (ID de acceso: [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146)). El experimento se hizo en una línea de células cancerosas crecidas en cultivo. Las células se cultivan en MEGM (donde retienen un fenotipo epitelial) o SCGM (donde se someten a una transición epitelial-mesencial reversible, o EMT). Se realizó un análisis de la expresión génica utilizando el microarray [hgu133plus2](https://bioconductor.org/packages/release/data/annotation/html/hgu133plus2.db.html) para identificar los genes asociados con el proceso EMT.
:::
## Obtener datos de GEO
Si navegas en [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146), verás que hay varios formatos de archivo diferentes disponibles para descargar.
:::info
[**SOFT files**](https://www.ncbi.nlm.nih.gov/geo/info/soft.html)
Es el formato que se suele usar para enviar archivos a GEO. Contiene mucha información sobre el experimento (cumplimiento de MIAME: Minimum Information About a Microarray Experiment) y también contiene las estimaciones para cada gen o transcripción, en un formato de archivo personalizado.
**Archivo [MINiML](https://www.ncbi.nlm.nih.gov/geo/info/MINiML.html)**
El formato de archivo MINiML utiliza XML, un lenguaje de marcado legible por computadora. Tiene la misma información que SOFT, pero en un formato diferente.
**Series matrix file** (Archivo de matriz de serie)
El archivo de matriz está destinado a ser legible directamente en una hoja de cálculo. Generalmente, estos archivos no tienen toda la información proporcionada por SOFT, pero es fácil trabajar con ellos.
**Archivos complementarios**
Los archivos `.CEL` tienen los datos originales sin procesar. :eye-in-speech-bubble: Como queremos procesarlo nosotros mismos, eso es lo que necesitaremos
:::
### Realizar análisis directamente con GEO2R
[GEO2R](https://www.ncbi.nlm.nih.gov/geo/geo2r/) es es una herramienta web interactiva que permite a los usuarios comparar dos o más grupos de muestras en una serie GEO para identificar genes que se expresan de manera diferencial en las diferentes condiciones experimentales. Los resultados se presentan como una tabla de genes ordenados por valor P y como una colección de gráficos para ayudar a visualizar los genes expresados de manera diferencial y evaluar la calidad del conjunto de datos. GEO2R utiliza una variedad de paquetes R del proyecto Bioconductor.
**Datos de microarrays**
GEO2R utiliza GEOquery y limma para realizar análisis de expresión diferencial utilizando tablas de datos procesados originales proporcionados por el remitente como entrada. GEOquery analiza los datos GEO en estructuras de datos R que pueden ser utilizadas por otros paquetes R. limma (modelos lineales para análisis de microarrays) es una prueba estadística para identificar genes expresados diferencialmente en datos de microarrays.
## Actividad
Vamos a trabajar en grupos de 4 y utilizaremos el experimento [GSE33146](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33146).
**Diseño del Experimento**
- ¿Cuál es la pregunta biológica que busca responder el experimento GSE33146?
- ¿Qué representan las dos condiciones experimentales en este dataset?
- ¿Qué tipo de datos proporciona un microarray?
- ¿Por qué es importante contar con réplicas en estudios de microarrays?
**Sobre el análisis con GEO2R:**
- ¿Qué pasos realiza GEO2R para identificar genes diferencialmente expresados?
- ¿Qué representan las métricas "log2 fold change" y "adjusted p-value"?
- ¿Por qué es importante ajustar los valores p en el análisis?
- ¿Cómo interpretarías un gen con un log2 fold change negativo?
**Visualizaciones:**
Vamos a centrarnos en el Vulcano plot y el diagrama de Venn. Reanaliza el experimento usando un *P* value < 0.05 y log2 fold change de 2.
- Sobre el **Vulcano plot**, responde:
- ¿Qué representan los ejes del volcano plot?
- ¿Cómo identificarías genes que son altamente significativos y tienen cambios de expresión grandes?
- ¿Qué diferencia hay entre un gen ubicado en el centro del gráfico y uno en los extremos?
- Sobre el **Diagrama de Venn**, responde:
- ¿Qué significa el número en el interior del círculo?
- ¿Qué representa el número fuera del círculo?
:::warning
Descarga la lista de genes diferencialmente expresados porque la usaremos en la siguiente clase.
:::