###### tags: `UAX` `Estudiantes`
# Seminario III
<font color = 'gray'>
<p style="text-align:right;">Prof.: Laura J. Marcos-Zambrano </font>
## Bases de datos Bioinformáticas
Antes de empezar la actividad, entra en la web del [NCBI](https://www.ncbi.nlm.nih.gov/) y [EMBL/EBI](https://www.ebi.ac.uk/) para conocerlas y ver el entorno.
Encuentra las BD de taxonomía, literatura (PubMed), proteínas... Recuerda que ambas web son una base de datos de "bases de datos".
### Actividad I:
Busca el gen de AmpC de *Klebsiella pneumoniae* en la base de datos de [Nucléotidos del NCBI](https://www.ncbi.nlm.nih.gov/) y en la base de datos de [ENA del EMBL. ](https://www.ebi.ac.uk/ena/browser/home)
:::warning
:microscope: Las AmpC son serin-betalactamasas. Enzimas responsables de la resistencia a antibióticos betalactámicos. Por lo general son producidas por bacterias gram negativas entre ellas *Klebsiella pneumoniae*
:::
- De las secuencias encontradas en ambas bases de datos: ¿Los formatos son iguales?
- Intenta descargar en tu ordenador, en un fichero de texto, alguna de estas secuencias en cualquiera de los formatos disponibles. ¿Será lo mismo almacenar la secuencia en un fichero de un editor de textos como el Bloc de notas o notepad (.txt) que en un fichero tipo Word?
:::info
Puedes ver en estas páginas información sobre formatos de secuencias:
http://emboss.sourceforge.net/docs/themes/SequenceFormats.html
http://bioperl.org/formats/sequence_formats/
:::
### Actividad II:
Trabajas en una laboratorio de Biología molecular, te ha llegado para analizar una secuencia de parte del gen 16S RNA de un microorganismo aislado de una conocida marca de **chocolate** :chocolate_bar:.
Descarga [aquí](https://drive.google.com/file/d/1i36ckg-Wh4EyYWMcWFxnYnYhnO0rnNo4/view?usp=sharing) la secuencia.
:::warning
:pushpin: El ARN ribosomal 16S (ARNr 16S o 16S rRNA) es el componente de la subunidad menor (30S) de los ribosomas procariotas. Los genes que lo codifican son conocidos como genes del ARNr 16S (16S rRNA), y se utilizan para la reconstrucción de filogenias debido a sus bajas tasas de evolución. **Se utilizan para la identificación bacteriana**.
:::
- Utiliza la herramienta [BLAST.](https://blast.ncbi.nlm.nih.gov/Blast.cgi)
- ¿A qué organismo pertence la secuencia? ¿Con qué nivel de certeza lo puedes decir? (:mag: Mira los porcentajes de identificación)
- Utiliza bibliografía científica para darle un significado biológico a lo que acabas de encontrar (Usa la BD Pubmed para buscar la información).
:::info
Para la búsqueda bibliográfica incluye palabras clave (la especie identificada, la fuente de aislamiento :chocolate_bar:), operadores booleanos y etiquetas (buscar en el título [TI]) para hacer la búsqueda bibliográfica y en un párrafo corto explica lo que has encontrado :wink:
:::
### Actividad III:
Investigando a fondo el Fibrinógeno humano.
:::warning
:syringe: El fibrinógeno o Factor I de la coagulación, es una proteína plasmática producida por el hígado. Es precursor de la fibrina una proteína fibrilar capaz de formar redes tridimensionales de vasos sangíneos, indispensable para la formación de los coágulos.
:::
- ¿En qué BD podemos encontrar **la secuencia que codifica** para el fibrinógeno humano?
- Utilizando la BD NCBI (Nucleotide) haz una búsqueda para encontrar todas las secuencias nucleotídicas registradas en la BD que codifican para el fibrinógeno humano:
- ¿Cuántas entradas aparecen después de una búsqueda simple con las palabras “human” y “fibrinogen”? (Utiliza el carácter booleano AND)
- ¿Qué tipo de moléculas hemos encontrado (DNA, mRNA, cDNA, etc)?
- ¿Son todas las secuencias encontradas humanas? ¿Por qué?, ¿En qué otras especies aparece?
- Repite la búsqueda del gen del fibrinógeno humano pero en este caso haciendo una búsqueda avanzada. Para ello filtremos la búsqueda solo para secuencias estrictamente de origen humano [primary organism = Homo sapiens]. Con esta estrategia de búsqueda, ¿cuántas entradas aparecen ahora en la base de datos de nucleótidos del NCBI?
- Intente una nueva búsqueda avanzada teniendo en cuanta estos factores:
- Primary organism = Homo sapiens
- El fibrinógeno tiene tres pares de cadenas de polipéptidos (2 cadenas Aα, 2 Bβ y 2γ) cada una codificada por un gen diferente. Nos centraremos en la secuencia que codifica para las cadenas gamma [protein name = fibrinogen gamma chain]. Con esta nueva estrategia de búsqueda: ¿Cuántas entradas aparecen ahora en la base de datos de nucleótidos del NCBI? ¿Cuál es la diferencia entre estas entradas en cuanto al origen de las secuencias? ¿Cuántas son mRNA?
- Utiliza la BD [Uniprot](https://www.uniprot.org/) para estudiar a fondo la proteína del Fibrinógeno humano. Repita la búsqueda refinada.
- ¿Qué información encuentra?
- ¿Qué referencias cruzadas - con otras BD- aparecen?
### Actividad IV:
(No hay que entregar nada de esta actividad, es sólo por vuestra curiosidad :wink:)
Elige otra de las bases de datos que hemos visto en clase:

- Realiza búsquedas generales usando los operadores booleanos.
:::info
:bulb: Ejemplos por si te quedas sin ideas: Buscar proteínas (insulina, hemoglobina, caseína), genes de resistencia bacterianos (blaA, sat3, AmpC), metabolitos (indol, cadaverina, butirato), vías metabólicas de lípidos, biosíntesis de colina...
:::
---
<p align="right">
<img src="https://i.imgur.com/zoLqVfj.png" width=20% height=20%>
</p>