---
title: Richiami di Big Data
tags: DataScience
description: Blocco slide parte 1
---
# Richiami di Big Data
I Big Data rappresentano un campo dedicato all’analisi, all’elaborazione e alla memorizzazione di grandi quantità di dati che si originano frequentemente da sorgenti eterogenee. Mentre la gestione e l’analisi di grossi dataset rappresentano problemi di vecchia data, le soluzioni adottate in ambito Big Data sono particolarmente avanzate, essendo usate quando le tecnologie e le metodologie di analisi, elaborazione e memorizzazione dei dati sono insufficienti, proponendo anche nuove tecniche che fanno leva su risorse computazionali e approcci per eseguire algoritmi analitici.
I dati processati da una soluzione di Big Data possono essere usati direttamente dalle applicazioni aziendali oppure possono servire per arricchire i dati che alimentano un Data Warehouse, portando nuova informazione.
## Data Analysis vs Data Analytics
L’analisi dei dati è il processo che esamina i dati per trovare fatti, relazioni, pattern, approfondimenti e/o trend, per supportare al meglio il decision making.
La Data Analytics, invece, è un termine più vasto che comprende la data analysis, ed è una disciplina che include la gestione del ciclo di vita completo dei dati, che comprende la collezione, la ripulitura, l’organizzazione, la memorizzazione, l’analisi e il governo dei dati. Il ciclo di vita della Big Data analytics generalmente comporta identificare, procurare, preparare e analizzare grandi quantità di dati grezzi e non strutturati per estrarre informazioni significative.
Ci sono quattro categorie generali di data analytics che si distinguono sulla base dei risultati che essi producono:
- **Descriptive analytics:** ha lo scopo di rispondere a domande sugli eventi che sono già accaduti. Questa forma di analisi contestualizza i dati per generare informazioni, generalmente di basso valore, e richiede skill di basso livello. Può far uso di dashboard con natura statica.
- **Diagnostic analytics:** L’analisi diagnostica ha lo scopo di determinare la causa di un fenomeno accaduto nel passato utilizzando domande che si focalizzano sulla ragione che stava dietro al fenomeno. L’analisi diagnostica fornisce più valore rispetto all’analisi descrittiva ma richiede un insieme di skill più avanzati. L’analisi diagnostica richiede generalmente la collezione di dati da sorgenti multiple e il loro ordinamento in una struttura che si presta ad effettuare analisi di tipo drill-down e roll-up, e fa spesso uso di tool di visualizzazione interattiva.
- **Predictive analytics:** L’analisi predittiva viene effettuata nel tentativo di determinare il risultato di un evento che potrebbe accadere nel futuro, facendo uso di dataset molto grandi. Con l’analisi predittiva, l’informazione viene potenziata con un significato per generare conoscenza che esprime come quella informazione è correlata. La forza e l’intensità delle associazioni forma la base dei modelli che vengono usati per generare predizioni future basate su eventi passati.
- **Prescriptive analytics:** L’analisi prescrittiva viene costruita sopra i risultati dell’analisi predittiva e ha lo scopo di prescrivere le azioni che dovrebbero essere intraprese. Il focus è non solo su qual è l’azione migliore da prescrivere, ma anche sul perché.
I diversi tipi di analytics adottano diverse tecniche e algoritmi di analisi. Ciò implica che ci possono essere richieste variabili in merito ai dati, alla loro memorizzazione e alla loro elaborazione per facilitare il rilascio di tipologie multiple di risultati analitici.
## Le 5 V dei Big Data
Affinché un dataset possa essere considerato Big Data, esso deve possedere una o più caratteristiche che lo caraterizzano. Nel tempo, si sono definiti cinque tratti dei Big Data, denominati come "le 5 V":
- **Volume:** Il volume dei dati previsto che viene elaborato dalle soluzioni basate sui Big Data è sostanziale e sempre crescente, imponendo richieste diverse per la memorizzazione dei dati e l’elaborazione degli stessi, come anche processi addizionali per la preparazione, la cura e la gestione dei dati
- **Velocità:** Negli ambienti dei Big Data, i dati possono arrivare ad alta velocità, e dataset enormi possono accumularsi entro periodi di tempi molto piccoli. Affrontare il flusso veloce dei dati richiede all’impresa di progettare soluzioni di data processing dei dati disponibili altamente elastiche e corrispondenti capacità di memorizzazione dei dati.
- **Varietà:** La varietà dei dati si riferisce a formati multipli e tipi di dati che devono essere supportati da soluzioni di Big Data. La varietà dei dati comporta sfide per le imprese in termini di integrazione, trasformazione, elaborazione e memorizzazione dei dati.
- **Veracità:** La veracità si riferisce alla qualità o alla fedeltà dei dati. I dati che entrano negli ambienti dei Big Data devono essere certificati per la qualità, il che può comportare attività di data processing per risolvere dati non validi e per rimuovere il rumore (dati che non portano informazione).
- **Valore:** Il valore è definito come l’utilità dei dati per un’impresa. La caratteristica «valore» è intuitivamente correlata con la caratteristica «veracità» in quanto maggiore è la fedeltà dei dati, maggiore è il valore che essi hanno per l’azienda. Può anche derivare dalla lunghezza del processamento dei dati (più tardi si ha informazione e peggio è, per cui il valore può essere visto come inversamente proporzionale al tempo)
## Tipologie di dato
I dati possono essere:
- **strutturati:** si conformano a un modello o ad uno schema dei dati; essi vengono spesso memorizzati in tabelle
- **semi-strutturati:** hanno un livello di struttura e consistenza definito, ma sono per natura non-relazionali (ad esempio, sono gerarchici o basati su grafo). Questo tipo di dati viene comunemente memorizzato in file che contengono testo.
- **non strutturati:** non si conformano a un modello o ad uno schema di dati (es: testo, file binari, ...). Hanno una velocità di crescita maggiore rispetto ai dati strutturati e sono più difficili da trattare.
I dati processati da soluzioni basate su Big Data possono essere generati dagli uomini o dalle macchine sebbene la responsabilità ultima nella generazione dei risultati analitici è delle macchine. I dati generati dall’uomo sono il risultato dell’interazione umana con i sistemi, ad esempio nei servizi online e nei dispositivi digitali, mentre I dati generati dalle macchine sono prodotti da programmi software e dispositivi hardware in risposta ad eventi del mondo reale.
### Metadati
Ai dati è inoltre spesso associato il concetto di **metadati**, che forniscono informazioni sulle caratteristiche e sulla struttura di un dataset. Il tracking dei metadati è cruciale per l’elaborazione, la memorizzazione e l’analisi dei Big Data perché fornisce informazioni sul «pedigree» dei dati e sulla loro provenienza durante l’elaborazione. Le soluzioni di Big Data si basano sui metadati, particolarmente quanto devono elaborare dati semi-strutturati e non strutturati.
## Dati, informazioni, conoscenza, saggezza
La transizione dal «senno di poi» alla previsione può essere capita attraverso le lenti della piramide DIKW mostrata nella seguente figura:

Questa piramide mostra come i dati possono essere arricchiti con il contesto per creare informazioni, alle informazioni può essere associato un significato per creare conoscenza e la conoscenza può essere integrata per formare la saggezza.
Si noti che, in questa figura, in cima al triangolo, la saggezza è mostrata solo tramite un contorno per indicare che essa esiste ma non viene tipicamente generata da sistemi ICT. Invece, i lavoratori della conoscenza forniscono l’intuito e l’esperienza per associare una cornice alla conoscenza disponibile in modo tale che la stessa possa essere integrata per formare la saggezza. Negli ambienti aziendali, la tecnologia viene utilizzata per supportare la gestione della conoscenza mentre il personale è responsabile dell’applicazione della propria competenza e saggezza per agire di conseguenza.
## Data Analytics e Organizzazione Aziendale
E’ oramai consolidato il fatto che un’azienda opera come un sistema a strati. Lo strato in cima è quello strategico, occupato dai dirigenti, lo strato intermedio è quello tattico o manageriale che cerca di pilotare l’organizzazione per mantenerla in allineamento con la strategia, e lo strato inferiore è quello delle operazioni dove un’azienda esegue i suoi processi fondamentali e rilascia valore ai propri clienti.
Questi tre livelli spesso mostrano un grado di indipendenza l’uno dall’altro, ma gli obiettivi di ciascun livello sono influenzati e spesso definiti dal livello soprastante, secondo un modello top-down. Inoltre, i livelli cambiano con velocità differenti: i livelli in cima alla piramide sono più lenti, quelli alla base sono più veloci.
Da una prospettiva di monitoraggio, la comunicazione fluisce verso l’alto, o in maniera bottom-up, tramite la collezione di metriche. Il monitoraggio delle attività di business a livello operazionale genera i Performance Indicator (PI) e le metriche, sia per i servizi che per i processi. Essi sono aggregati per creare i Key Performance Indicator (KPI) usati a livello tattico. Questi KPI possono essere allineati con i Critical Success Factor (CFS) a livello strategico che, a loro volta, aiutano a misurare il progresso che viene fatto verso il raggiungimento degli obiettivi strategici.

In questo contesto i Big Data aggiungono valore poiché forniscono un contesto addizionale grazie all’integrazione di prospettive esterne per aiutare a convertire i dati in informazioni e forniscono un significato per generare conoscenza dall’informazione, a partire dal livello operazione fino ad arrivare a quello strategico.
## Pianificazione nell’adozione dei Big Data
### Prerequisiti organizzativi
Affinchè la data analysis e la data analytics possano fornire valore, le imprese devono avere dei framework di data management e di Big Data governance. Sono anche necessari processi corretti e skill sufficienti per coloro che saranno responsabili dell’implementazione, della personalizzazione, del popolamento e dell’utilizzo delle soluzioni per Big Data. E’ necessario, inoltre, definire una roadmap per assicurarsi che ogni espansione dell’ambiente possa essere opportunamente pianificata per essere sincronizzata con le richieste dell’azienda.
### Procuramento dei dati
L’acquisizione delle soluzioni di Big Data può essere economica, per la disponibilità di piattaforme open source e di tool e contratti incentrati sul commodity hardware. Il costo per l'acquisizione dei dati stessi da analizzare, invece, può essere alto. La natura del business può infatti rendere i dati esterni molto costosi, e maggiore sono il volume e la varietà dei dati che possono essere forniti, e maggiori saranno le possibilità di trovare delle informazioni nascoste dai pattern.
### Privacy
Effettuare analitica sui dataset può rivelare informazioni confidenziali su organizzazioni o individui, che può portare a brecce, intenzionali o inavvertite, nella privacy. Far fronte a queste richieste di privacy comporta una comprensione della natura dei dati che vengono accumulati nonché la definizione di rilevanti regolamentazioni della privacy dei dati e tecniche speciali per il data tagging e l’anonimizzazione.
### Sicurezza
Alcune delle componenti delle soluzioni di Big Data non hanno la robustezza tipica dei tradizionali ambienti delle soluzioni enterprise quando viene effettuato il controllo degli accessi e la sicurezza dei dati. Rendere sicuri i Big Data comporta assicurarsi che le reti e i repository dei dati siano sufficientemente sicuri tramite l’autenticazione e i meccanismi di autorizzazione.
### Provenienza
La provenienza si riferisce alle informazioni sulla sorgente dei dati e su come questi ultimi sono stati processati. Mantenere la provenienza nel momento in cui grossi volumi di dati vengono acquisiti, combinati e fatti passare attraverso più stadi di elaborazione, può essere un task complesso.
In ultima analisi, lo scopo di catturare la provenienza consiste nell’essere capaci di ragionare sui risultati analitici generati mettendoli in relazione con la conoscenza dell’origine dei dati e con i passi o gli algoritmi utilizzati per elaborare i dati che hanno portato al risultato. Le informazioni sulla provenienza sono essenziali per essere capaci di realizzare il valore del risultato dell’analitica, in quanto se i risultati non possono essere giustificati e ripetuti, essi perdono di credibilità.
### Supporto Realtime
I dashboard e le altre applicazioni che richiedono lo streaming dei dati e gli alert spesso hanno bisogno di trasmissioni dei dati in tempo reale o quasi. Molte soluzioni e tool di Big Data open source sono batch-oriented; tuttavia c’è una nuova generazione di tool open source a tempo reale molto validi che forniscono supporto per l’analisi dello streaming dei dati.
### Performance e governance
A causa dei volumi di dati che alcune soluzioni di Big Data devono elaborare, la performance è spesso un problema (spesso legato alla banda di rete o alla dimensione dei dataset). Inoltre, è necessario un framework di governance per assicurarsi che i dati e lo stesso ambiente della soluzione siano regolati e standardizzati e possano, inoltre, evolvere in maniera controllata, soprattutto se si considerano dati raccolti in azienda.
### Metodologie di raffinamento iterativo
E’ necessaria una metodologia per controllare come fluiscono i dati dentro e fuori le soluzioni di Big Data. Sarà necessario considerare come si possono stabilire cicli di feedback per consentire ai dati processati di avere dei raffinamenti ripetuti, come mostrato nella seguente figura:

In essa ciascuna ripetizione può aiutare dei passi di raffinamento e può supportare gli algoritmi e i modelli dei dati a migliorare l’accuratezza dei risultati e a garantire un maggiore valore al business.
### Cloud
I cloud forniscono ambienti remoti che possono ospitare infrastrutture IT per lo storage e l'elaborazione su larga scala. Indipendentemente dal fatto che un'organizzazione sia già abilitata al cloud, l'adozione di un ambiente Big Data può richiedere che tutto o parte di quell'ambiente sia ospitato all'interno di un cloud.
## Ciclo di vita della Big Data Analytics
La Big Data analysis differisce dalla tradizionale analisi dei dati principalmente a causa delle caratteristiche di volume, velocità e varietà dei dati che devono essere processati. Per soddisfare le grosse richieste necessarie per effettuare l’analisi sui Big Data, è necessaria una metodologia step-by-step per organizzare le attività e i task coinvolti con l’acquisizione, l’elaborazione, l’analisi e il riutilizzo dei dati. Nel seguito esamineremo uno specifico ciclo di vita della data analytics che organizza e gestisce i task e le attività associate all’analisi dei Big Data.
Come mostrato nella seguente figura, il ciclo di vita della Big Data Analytics può essere suddiviso in nove stadi, che saranno di seguito esaminati:

### Business Case Evaluation
Lo stadio di Business Case Evaluation richiede che venga creato, validato e approvato un business case prima di procedere con i task di analisi effettivi, al fine di aiutare i decision maker a comprendere le risorse di business che dovranno essere utilizzate e le sfide di business che dovranno essere affrontate. In questo stadio si determina anche il budget richiesto per la realizzazione del progetto.
### Data Identification
Lo stadio di Data Identification è dedicato ad identificare i dataset richiesti per il progetto di analisi e le loro sorgenti. A seconda dello scopo commerciale del progetto di analisi e della natura dei problemi di business che devono essere affrontati, i dataset richiesti e le loro sorgenti possono essere interni e/o esterni all’impresa.
### Data Acquisition and Filtering
Durante lo stadio di Data Acquisition and Filtering, i dati vengono recuperati da tutte le sorgenti dei dati che erano state identificate durante lo stadio precedente. I dati acquisiti sono quindi soggetti al filtraggio automatico per la rimozione di dati corrotti o di dati che si pensa non abbiano alcun valore per gli obiettivi di analisi. In questa fase si ha anche la creazione e l'uso dei metadati, in modo da tracciare ed organizzare al meglio i dati.
I dati che vengono filtrati per un’analisi possono essere di grande valore per un differente tipo di analisi. Pertanto è opportuno memorizzare una copia del dataset originale prima di procedere con il filtraggio. Sia i dati interni che quelli esterni devono essere resi persistenti una volta che gli stessi sono generati o entrano nel confine aziendale.
### Data Extraction
Lo stadio di Data Extraction è dedicato ad estrarre dati disparati e a trasformarli in un formato che la soluzione di Big Data sottostante possa usare per l’analisi dei dati, effettuando l'integrazione dei dati.
### Data Validation and Cleansing
Lo stadio di Data Validation and Cleansing è dedicato a stabilire delle regole di validazione spesso complesse e a rimuovere tutti i dati conosciuti come non validi, oggettivando la definizione di validità nel contesto del dataset. Bisogna tuttavia notare che i dati che appaiono essere non validi possono ancora avere un grosso valore in quanto possono essere indicatori di pattern e trend nascosti, per cui bisogna fare attenzione.
Le soluzioni di Big Data spesso ricevono dati ridondanti da dataset differenti. Questa ridondanza può essere utilizzata per esplorare dataset interconnessi al fine di assemblare dei parametri di validazione e di riempire i dati validi mancanti
### Data Aggregation e Representation
Lo stadio di Data Aggregation e Representation è dedicato ad integrare più dataset insieme per arrivare ad una visione unificata della stessa. Effettuare questa attività può diventare complicato a causa di differenze riguardanti per esempio la struttura dei dati e la semantica.
### Data Analysis
Lo stadio di Data Analysis è dedicato ad effettuare la reale analisi dei dati. Questo stadio può essere intrinsecamente iterativo, specialmente se l’analisi dei dati è esplorativa, nel qual caso l’analisi è ripetuta fino a quando il pattern o la correlazione opportuna non vengano scoperti. A seconda del tipo di risultato richiesto, questo stadio può essere semplice o complesso, e può andare dall'effettuare query all'usare tecniche di data mining.
L’analisi dei dati può essere classificata come confermativa o esplorativa (quest’ultima è collegata al data mining). L’analisi dei dati **confermativa** è un approccio deduttivo dove la causa del fenomeno che si sta analizzando viene proposta inizialmente (ipotesi), e i dati vengono analizzati per confermare o rigettare l’ipotesi e forniscono risposte definitive a domande specifiche. Un’analisi dei dati **esplorativa** è un approccio induttivo strettamente associato con il Data Mining, in cui non ci sono ipotesi iniziali ma al contrario, i dati vengono esplorati attraverso l’analisi per sviluppare una comprensione della causa del fenomeno. Sebbene questo metodo possa non fornire delle risposte definitive, esso definisce una direzione generale che può facilitare la scoperta di pattern o anomalie.
### Data Visualization
Lo stadio di Data Visualization è dedicato ad usare tecniche e tool di visualizzazione dei dati per comunicare graficamente i risultati dell’analisi consentendo, così, un’interpretazione efficace da parte degli utenti aziendali. I risultati legati al completamento dello stadio di Data Visualization forniscono agli utenti la capacità di effettuare analisi visuali, di consentire la scoperta di risposte a domande che loro non si erano ancora posti.
### Utilization of Analysis Results
Lo stadio di Utilization of Analysis Results è dedicato a determinare come e dove i dati di analisi elaborati possono essere ulteriormente utilizzati, andando a determinare eventualmente lo sviluppo di nuovi applicativi.
## Report ad-hoc e dashboard
Il reporting ad-hoc è un processo che comporta l’elaborazione manuale dei dati per produrre dei report orientati all’utente finale. Il focus dei report ad-hoc è generalmente su un’area specifica del business, sono dettagliati e spesso hanno la forma di tabelle.
I dashboard forniscono una visione olistica delle aree di business più importanti. La presentazione dei dati nei dashboard è di natura grafica, usando grafici a barre, grafici a torta e indicatori.
La BI tradizionale utilizza i data warehouse e i data mart per il reporting e l’analisi dei dati perché essi consentono query di analisi dei dati complesse con join multiple e aggregazioni.
## Visualizzazione dei dati
La visualizzazione dei dati è una tecnica attraverso la quale i risultati analitici vengono comunicati graficamente utilizzando elementi quali carte, mappe, griglie di dati, infografiche e alert. La visualizzazione tradizionale dei dati fornisce principalmente delle carte e dei grafici statici presenti in report e dashboard, mentre i nuovi tool di visualizzazione dei dati sono interattivi e possono fornire visioni, sia riassunte che dettagliate, dei dati.
I tool avanzati di visualizzazione dei dati includono delle caratteristiche di analisi dei dati predittiva e prescrittiva nonché delle funzionalità di trasformazione dei dati, eliminando la necessità di metodi di pre-processing dei dati, quali i metodi ETL.