###### tags: `UAX` `Estudiantes`
# Seminario análisis de datos genómicos - Control de Calidad
<font color = 'gray'>
<p style="text-align:right;">Prof.: Laura J. Marcos-Zambrano </font>
:::info
Tienes que entregar un documento respondiendo a las preguntas de la Actividad 1 e instalar el programa fastQC para el labortaorio del jueves.
:::
## Actividad 1
Descargar el programa [UGENE](https://ugene.net/download-all.html).
Descargar el fichero cromprimido de cromatogramas de [ejemplo](https://drive.google.com/file/d/1vFCHxHqhvlJvRGvtvfj9HSjp0Nva1szl/view?usp=share_link).
Abrir los cromatogramas descargados con el programa UGENE de uno en uno y comprobar su calidad.
Evaluar para cada uno de los cromatogramas:
1. ¿Hay señal detectable o solo ruido?
2. ¿Desde qué posición (aprox.) empieza la región de buena calidad?
3. ¿En qué punto empieza a decaer la calidad?
4. ¿La pérdida de calidad es gradual o brusca?
5. ¿Se observan picos superpuestos o ruido de fondo elevado?
6. ¿Hay bases mal llamadas (picos ambiguos o letras incorrectas)?
7. Indica un posible motivo del problema (ej. muestra degradada, contaminación, fallo en la reacción, etc.).
:::info
Debes entregar un documento respondiendo las preguntas para cada cromatograma.
:::
## Actividad 2 - SOLO INSTALAR
#### Calidad con FASTQC
FASTQC es un programa que hace una serie de análisis básicos y estándar de calidad. La mayoría de las empresas de secuenciación efectúan este análisis y te mandan los resultados junto con tus datos crudos.
Los análisis de FASTQC son útiles para identificar problemas que pudieron surgir durante el laboratorio o durante la secuenciación.
El análisis de FASTQC consiste en los siguientes campos:
[Basic Statistics](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/1%20Basic%20Statistics.html)
[Per Base Sequence Quality](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/2%20Per%20Base%20Sequence%20Quality.html)
[Per Sequence Quality Scores](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/3%20Per%20Sequence%20Quality%20Scores.html)
[Per Base Sequence Content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/4%20Per%20Base%20Sequence%20Content.html)
[Per Sequence GC Content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/5%20Per%20Sequence%20GC%20Content.html)
[Per Base N Content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/6%20Per%20Base%20N%20Content.html)
[Sequence Length Distribution](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/7%20Sequence%20Length%20Distribution.html)
[Duplicate Sequences](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%20Sequences.html)
[Overrepresented Sequences](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/9%20Overrepresented%20Sequences.html)
[Adapter Content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/10%20Adapter%20Content.html)
[Kmer Content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/11%20Kmer%20Content.html)
[Per Tile Sequence Quality](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile%20Sequence%20Quality.html)
Notas importantes:
FASTQ automáticamente dice si nuestra muestra "pasó" o "falló" la evaluación. Sin embargo debemos tomar esto dentro del contexto de lo que esperamos de nuestra librería, ya que FASTQ espera una distribución al diversa y al azar de nucleótidos, lo que puede no cumplirse en algunos protocolos.
Mira ejemplos de:
[Buenos datos Illumina](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html)
[Malos datos Illumina](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/bad_sequence_fastqc.html)
[Corrida Illumina contaminada con dímeros de adaptadores (adapter dimers)](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/RNA-Seq_fastqc.html)
#### ¿Qué que son los dímeros de adaptadores?
Los adaptadores se ligan al ADN de nuestras muestras en un paso de ligación, sin embargo, también pueden ligarse entre sí y luego pegarse a la flow cell (que lo traduzca quién sepa cómo). Resultado: son secuenciados pero no proven datos útiles, simplemente la secuencia de los adaptadores repetida muchas veces. Adelante veremos cómo lidiar con ellos bioinformáticamente, pero se recomienda intentar deshacerse de ellos desde el laboratorio (con pequeños, pequeños imanes como Agencourt o símiles de otras marcas).
#### ¿Qué tanto importa el análisis FASTQC?
Mucho, a partir del análisis FASTQC es que decidirás si tu secuenciación fue exitosa y qué parámetros de pre-procesamiento deberás utilizar para deshacerte del ruido y quedarte con datos limpios.
Escoger los parámetros adecuados de pre-procesamiento es vital ya que todas las corridas de secuenciación son diferentes. Lo más seguro es que el default del programa o lo que Perenganos et al 2015 reportaron en su artículo magno no sea lo mejor para procesar tus datos.
Además entender bien tu FASTQC puede permitirte rescatar datos usables incluso dentro de una mala corrida.
:::warning
Instala el programa [FASTQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) para el laboratorio del Jueves 30/10/25
Sigue las [instrucciones](https://github.com/s-andrews/FastQC/blob/master/INSTALL.md) para instalar el programa. Tienes que tener Java [Instalado](https://www.java.com/es/download/ie_manual.jsp) primero. Y luego es sólo descomprimir y hacer click en el archivo run_fastqc.bat
:::