--- title: Big Data. 002. Eines per a treballar amb Big Data. tags: DAM, Big Data --- [Link en MarkDown](https://hackmd.io/@JdaXaviQ/ByUKNvOQs) # DAM Big Data 002: Eines per a treballar amb Big Data. * Processament en paral·lel. * Escalat horitzontal. * Distribució i paralelisme de les dades. * Tolerancia a errors. ## Processament en paral·lel. Quan operem amb big data, és molt difícil disposar d'una màquina tant potent que pugui processar el volum de dades que necessitem a la velocitat que necessitem, així que en lloc de treballar amb una única màquina superpoderosa, treballem amb conjunts de màquines que executen la feina de forma col·laborativa. A aquests conjunts de màquines els anomenem **'clusters'**. ## Escalat horitzontal. Quan treballem processant de forma paral·lela i per consegüent no estem limitats a l'ús d'una única màquina, podem augmentar i disminuir el nombre de **nodes** dins del nostre cluster, per tal d'ajustar de manera dinàmica la potència de càlcul a la demanda. D'això s'en diu **escalat**. ## Distribució i paral·lelisme de les dades. De forma anàloga al procesament, la capacitat d'emmagatzematge de dades es queda molt curta per a una sola màquina, per molt gran que sigui aquesta quant ens enfrontem a problemes de Big Data. Hem de desar les dades de forma distribuida entre diverses màquines i si s'escau també de forma redundant. ## Tolerancia a errors. Quan treballem de forma paral·lela podem assumir que un dels nostres nodes 'caigui' i hem d'estar preparats per a que la resta asumeixi la seva càrrega de procés i pugui replicar les seves dades si haviem establert un mecanisme de redundància.