I fondamentali teorici del Big Data Ecosystem
Dopo l’articolo introduttivo, continuiamo il nostro percorso esplorativo descrivendo come si articola l’impianto teorico dei Big Data, che si costituisce di definizioni, caratteristiche dei dati, fonti e tipologie di dati.
Come già anticipato, il termine Big Data è ancora un concetto vago e non esiste una definizione univoca, dal momento che sta invadendo tutti i settori della conoscenza e dell’attività umana, ognuno dei quali ne dà una sua interpretazione. Ripercorrendo l’evoluzione del significato dei Big Data e integrando definizioni di professionisti e accademici, possiamo riassumere in sintesi le tappe conoscitive per arrivare a definire il fenomeno e le sue caratteristiche.
Il punto di partenza è il modello delle “3 Vs”: volume, velocity e variety.
- Il volume è sicuramente la prima caratteristica a cui pensiamo in riferimento ai Big Data. Inizialmente, infatti, l’idea era che il volume dei dati era cresciuto al punto che la quantità da esaminare non poteva più essere contenuta nella memoria dei computer utilizzati per l’elaborazione di informazioni fino a quel momento. Nasceva così la necessità di rinnovare gli strumenti di processazione e analisi dei dati.
- In seguito ci si è resi conto che il problema non era solo il volume dei dati prodotti, ma anche la velocità a cui venivano prodotti e la varietà di tipologie di dati.
Douglas Laney di META Group ha scritto un rapporto intitolato 3D Data Management: Controlling Data Volume, Velocity, and Variety in cui ha proposto e legittimato le “3 Vs”, che secondo l’autore possono essere viste come le tre dimensioni chiave dei Big Data. Da questo momento è finalmente emerso un quadro comune per descriverli e definirli.
Entrando maggiormente nel dettaglio possiamo descrivere queste tre V come segue:
Il Volume rappresenta la dimensione dei Big Data, che ha cominciato a crescere enormemente in seguito all’avvento della possibilità di interazione tra gli utenti online e, in particolare, con la nascita dei blog. In termini più ampi il volume è cresciuto di pari passo alla crescita del desiderio umano di essere collegato e condividere. La seconda ondata di crescita nella produzione dei dati coincide con l’avvento dei social media, come Facebook, Twitter e altri, che consentono agli utenti di esprimere e condividere video, audio, testo, messaggi, ecc. La parallela sofisticazione della tecnologia mobile ha reso più facile la condivisione e ha aumentato ancora di più i volumi. Il successivo aumento del volume di dati arriverà infatti dalle tecnologie indossabili e dall’internet delle cose (IOT): da tutti i tipi di sensori biometrici (cuore, temperatura, impulsi, ecc.) e di sensori di movimento (GPS, cellulari, ecc.).
La Variety dei dati si riferisce all’eterogeneità strutturale dei dataset in termini di formati. I progressi tecnologici permettono di utilizzare vari tipi di dati che si dividono in tre macro categorie: dati strutturati, semistrutturati e non strutturati. I dati strutturati, che costituiscono solo il 5% di tutti i dati esistenti, consistono in dati tabulari con estensione e formato definiti, che possono essere immagazzinati in database tradizionali, dove hanno una precisa correlazione tra di loro. Mentre testo, immagini, audio e video, sono esempi di dati non strutturati, che mancano completamente di format predefiniti. Questi dati provengono dalla moltiplicazione delle fonti citate prima, sono molto più complessi da immagazzinare, processare ed analizzare, e oggi rappresentano, insieme a quelli semi-strutturati, l’80% dei dati. Infine, i dati semi-strutturati sono la combinazione di dati strutturati e di dati non-strutturati: l’Extensible Markup Language (XML) – un linguaggio testuale per lo scambio di dati sul Web – e i JSON sono tipici esempi di dati semi-strutturati.
La Velocity è la rapidità di generazione dei dati e la conseguente velocità con cui devono essere analizzati. I dati provengono dalle macchine e dagli esseri umani e la velocità aumenta all’aumentare delle fonti. La proliferazione dei dispositivi digitali, come smartphone e sensori, ha portato a un ritmo di creazione dei dati senza precedenti e conduce a un crescente bisogno di analisi di questi in tempo reale. I dati provenienti da dispositivi mobili e che fluiscono dalle app producono torrenti di informazioni, che i sistemi tradizionali di gestione di dati non sono in grado di gestire in maniera istantanea.
Gli analisti IBM aggiungono nel 2012 altre due V: veracity e value.
Per Veracity si intende l’inattendibilità intrinseca di alcune fonti di dati. Ad esempio, i sentimenti delle persone espressi nei social media sono incerti per natura, dal momento che implicano il giudizio umano, eppure contengono informazioni preziose. Così la necessità di affrontare i dati imprecisi e incerti è un altro volto dei BD, che si risolve utilizzando strumenti di analisi sviluppati per gestire e dare significato a dati incerti.
Il concetto di Value si riferisce al fatto che i BD sono spesso caratterizzate da “bassa densità valore“. Ciò significa che i dati ricevuti in forma originale di solito hanno un valore basso rispetto al volume. Tuttavia, un valore elevato può essere ottenuto analizzando grandi volumi di dati. La sfida è quella di eliminare dati non importanti, identificare ciò che è rilevante e poi estrarre rapidamente i dati per un’analisi puntuale.
In molti studi è stata menzionata un’altra dimensione nella definizione dei BD: la variability.
SAS ha introdotto il concetto di Variability riferendosi alla variazione nelle ondate di dati. Spesso, infatti, la velocità dei BD non è coerente e ha picchi e depressioni periodici. Inoltre i BD sono generati attraverso una miriade di fonti. Oltre alle fonti convenzionali di dati, come ricerche di mercato, sondaggi, punti di rating, pannels, online click steam, ecc., ora ci sono i social media, i call center, le chat, le registrazioni vocali, i video dalle TVCC dei punti vendita, l’IoT, le tecnologie RFID e GIS, gli smartphone, gli sms, ecc. Questo impone una sfida cruciale: la necessità di collegare, incrociare e trasformare in informazioni dati ricevuti da fonti diverse.
La considerazione conclusiva è che i dati, quelli Big, è improbabile che siano in un unico luogo, improbabile che possano essere proprietà o controllati da una sola organizzazione, e che possano essere gestiti attraverso strumenti tradizionali e database strutturati.