---
title: Big Data. 001. Què és Big Data?
tags: DAM, Big Data
---
<div style="width: 30%; margin-left: auto;">

</div>
<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Llicència de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Aquesta obra està subjecta a una llicència de <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Reconeixement-CompartirIgual 4.0 Internacional de Creative Commons</a>
[Link en MarkDown](https://hackmd.io/@JdaXaviQ/Hk8DVZifj)
# DAM Big Data 001: Què és Big Data?
La idea bàsica darrera de la idea de **Big Data** és que (gairabé) totes les nostres accions deixen una traça digital (o dades) de forma incremental, la qual podem analitzar per descobrir coses (patrons).
Per comprendre millor el que és el Big Data, l'hem de comparar amb l'Small Data.
## Big Data vs. Small Data
### Small Data
<div style="float: left; padding-right: 25px; width: 25%">

</div>
- Suficientment petit per a poder ser inferit per humans.
- S'acumula de forma lenta i normalment no s'actualitza de forma continuada.
- Fàcil d'emmagatzemar de forma estructurada. Normalment és possible desarla en formats tan coneguts com JSON o XML.
- Normalment continguda en sistemes d'emmagatzematge _discrets_ dins d'empreses o centres de dades.
- [Link](https://upload.wikimedia.org/wikipedia/commons/2/27/Snow-cholera-map-1.jpg) al mapa de [morts per còlera](https://en.wikipedia.org/wiki/1854_Broad_Street_cholera_outbreak) del Dr. John Snow 
### Big Data
<div style="float: left; padding-right: 25px; width: 25%">

</div>
- Dades generades en volums ingents que poden estar estructurats, semiestructurats o totalment desestructurats.
- Necessita ser processada per a que els humans podem extreure informació.
- S'actualitza continuament a molta velocitat des de multiples fonts.
### Exemples visuals de nombres grans


### Alguns fets relacionats amb la Big Data
* Més de la meitat de les dades desades durant tota la història de la humanitat s'han generat durant els darrers 2 anys!!!
* S'estima que la quantitat de dades generades creix un 40% anual.
<div style="width: 100%; text-align: right;">
<sub>**Fonts: McKinsey report - Digital era, data growth, estimates and, Gartner, IDC estimates**</sub>
</div>
### Posem en context les coses grans
#### 1. La viquipèdia en anglés: 51 GB
Sense comptar l'historial de modificacions ni la mediawiki.
Només text, dades del 2015. Dump XML sense comprimir.
La utilitzarem com a unitat de mesura per a la resta d'exemples; 1 Wiki = 51 GB.
#### 2. Wikimedia Commons
24 TB al 2014
470.6 Wiki
#### 3. X anteriorment conegut com a Twitter
8 TB/dia al 2013
157 Wiki/dia
#### 4. Large Synoptic Survey Telescope
15 TB / dia al 2020
294 Wiki/dia
#### 5. Facebook
600 TB/dia al 2014
12e3 Wiki/dia
#### 6. Large Hadron Collider
1 PB/dia al 2017
20e3 Wiki/dia
#### 7. El sistema PRISM: NSA Surveillance
29 PB/dia
569e3 Wiki/dia
#### 8. Google
100 PB/dia al 2014
2e6 Wiki/dia
### És la BigData un coll d'ampolla a les empreses actualment?

Per a la gran majoria d'empreses actuals, l'analisi i posterior presa de decissions basades en dades o és un coll d'ampolla o encara no se n'estan aprofitant dels seus avantatges. Les hi costa molt trobar personal qüalificat que els hi ajudi a tractar grans volumns de dades. I tenen problemes a trobar talent a tots els nivells de la cadena: desde els perfils que han de dissenyar la seva estratègia de BigData fins a aquells perfils més baixos que han de posar en marxa els processos que permetin el tractament de les dades.
### El cicle de vida de la Big Data
Un error molt comú és pensar que Big Data es refereix només a grans volumns de dades quan en realitat es refereix a tot el cicle de vida de les dades.
El cicle de vida típic de Big Data, tot i que no hi ha un consens absolut i cada grup de treball anomena i classifica les diferents etapes de maneres diferents, vindria a ser alguna cosa similar al següent esquema:

1. **Cas de negoci**: La recolecció de dades de Big Data comença amb un requeriment o un problema de negoci.
2. **Obtenció de dades**: Quan es recolecta una dada, es desa utilitzant un framework per a dades distribuïdes com per exemple Hadoop HDFS.
3. **Modelitzat de les dades**: Aquestes dades recollides, es filtren de forma automatitzada (amb scripts que utilitzen funcions tipus map & reduce) de manera que es creen models que es poden inserir dins d'un sistema gestor de bases de dades. Aquests models de dades inclouen els diferents objectes i les relacions i regles entre aquests objectes (o entitats). Exemple d'aplicacions utilitzades en aquesta etapa poden èsser: Hadoop YARN i Hadoop mapReduce.
4. **Processat**: Un cop tenim les dades modelitzades, estan preparades per a ser processades per eines com Apache Spark que produeixen informació amb sentit a partir de dades modelitzades.
5. **Visualització**: finalment la informació obtinguda és representada de forma gràfica que pot ajudar als responsables de l'empresa a prendre decisions informades que els portaran a nous cassos de negoci, començant un nou cicle.
### Les quatre Vs de la Big Data
1. [Velocity] Velocitat: Les dades es generen molt ràpid i sense pausa.
2. [Volume] Volum
3. [Variety] Varietat
4. [Veracity] Veracitat
Com a bonus track podem considerar que existeix una cinquena V de **Value**: Valor del profit que podem extreure d'explotar correctament les altres quatre Vs, el valor que generen decisions correctes sorgides de la informació adient. Big Data fomenta la innovació i consegüentment genera valor.

### IoT i la seva rel·lació amb el Big Data
Moltes de les actuals aplicacions de Big Data es basen en la IoT per nodrir-se de dades. Gairabé tots els nostres wearables i moltes de les aplicacions dels nostres smartphones envian gran quantitat de dades al núvol sense necessitar de la nostra intervenció i moltes vegades sense el nostre coneixement. Un exemple molt important són els assistents personals del tipus 'Google Now', 'Siri', 'Alexa' ...; els rellotges que ens estan llegint continuament les nostres constants vitals i moviments; les càmeres de vigilància que són capaces d'analitzar de forma autònoma les imatges enregistrades i prendre decisions depenent del que estiguin veient i un munt més de sensors intel·ligents i dispositius connectats a la xarxa.