Elena Baralis

Professore Ordinario e Direttrice del DAUIN – Dipartimento di Automatica e Informatica del Politecnico di Torino

5 Marzo 2020 |

Paolo Morati

I Big Data sono una miniera da cui estrarre valore. In questa intervista approfondiamo con Elena Baralis il tema e le tecniche applicate per poterli analizzare e quindi utilizzare al meglio

Cominciamo con un primo accenno storico al tema dati e loro memorizzazione, elaborazione e analisi attraverso i sistemi informativi…

Prima di tutto va detto che l’era contemporanea è caratterizzata dalla presenza di grandi volumi di dati, molto superiori anche solo a quelli di qualche anno fa, che vanno di conseguenza gestiti. Si tratta del fenomeno battezzato con il termine di Big Data. Sono dati generati sia dalle persone – che usano i social media per comunicare, scrivono blog post sul web, condividono video e immagini sulla rete – che dalle macchine – come nel caso dei sistemi industriali, oppure dei veicoli che integrano sensori Internet of Things, o ancora degli smart meter ossia i contatori intelligenti che inviano dati sui consumi alle utility. Tutto questo permette diversi tipi di monitoraggio e analisi che in realtà sono già stati affrontati in passato seppure su volumi molto inferiori. Ecco che se certamente si può parlare di una nuova scienza dei dati, questa attinge anche a tecniche già esistenti, che sono state migliorate e adattate nel tempo, e che prevedono l’uso di algoritmi avanzati e adattati alle nuove situazioni.

Proviamo prima a fare un esempio, con riferimento al contesto pubblico…

Posso citare il tema della gestione delle emergenze. Oggi sono tanti i dati a disposizione quando si verifica un evento come un’alluvione o un incendio su larga scala. Ci sono quelli che vengono raccolti in presa diretta provenienti dai satelliti che osservano il Pianeta dall’alto, ci sono quelli prodotti dai droni che sorvolano le aree critiche, e ancora quelli forniti dalle persone presenti sul posto che possono a loro volta condividere filmati e fotografie. A questi dati bisogna poi aggiungere quelli storici, ad esempio sull’andamento delle precipitazioni, il progredire dei modelli meteorologici, e così via, per fornire uno scenario il più completo possibile a chi deve prendere le decisioni del caso e coordinare gli interventi, oppure a chi presta il primo soccorso grazie a delle mappe aggiornate eliminando eventuali percorsi interrotti, e ancora fornendo suggerimenti alle persone in loco e ai cittadini relativamente a dove dirigersi per mettersi in salvo. Tutto questo a patto di avere gli strumenti di analisi adeguati.

Quali sono le problematiche che emergono maggiormente quando si deve lavorare sui Big Data?

Come dice la parola stessa si tratta di dati molto grandi in termini di volumi, e con una diversità e complessità di rappresentazione significativa. Infatti un singolo testo, immagine, o altra tipologia di dato non sono uguali tra loro e non possono essere trattati allo stesso modo. Ecco che avrò bisogno di metodi appropriati per ciascuno di essi, favorendo anche una loro integrazione. Ma non solo. Lo svolgimento di questa attività di gestione richiede nel contempo nuove architetture sia dal punto di vista delle tecnologie hardware di base, ossia computer microprocessori, connessioni di rete e così via, che di metodi (e quindi applicazioni) di memorizzazione, elaborazione e analisi. L’obiettivo finale è trovare del valore, individuando informazioni importanti e trasformandole in conoscenza seguendo un processo diverso rispetto a quello tradizionale che prevede la costruzione di modelli basati sulla comprensione di fenomeni fisici. Nel caso dei Big Data la comprensione avviene dal basso ossia partendo dai dati per ricavare informazioni derivate direttamente da essi.

Quali sono le proprietà specifiche di questo tipo di dati?

Ne descrivo alcune delle più importanti e che hanno tutte la stessa iniziale. La V. La prima sta per volume, che sta crescendo enormemente. Per fare un esempio ci sono catene di supermercati in possesso di più petabyte (una misura di 1015) di dati, oppure produttori di aeroplani che raccolgono per ogni volo centinaia di terabyte (1012) di dati dai sensori di bordo. Volumi che non siamo nemmeno in grado di immaginare se pensiamo alla capienza dei singoli dischi di storage presenti nei normali computer, e con previsioni di un incremento di 44 volte dal 2009 al 2020 per arrivare a circa 40 zettabyte (1021) di dati totali. Una quantità che si spiega facilmente quando osserviamo a quanto accade su Internet dove avviene un continuo invio di messaggi tramite vari mezzi, ognuno dei quali genera a sua volta dati da memorizzare. Ci sono statistiche che affermano come in un secondo vengono scritti 100.000 Tweet, condivisi circa 700.000 elementi su Facebook, effettuate due milioni di ricerche su Google, caricate 48 ore di video su YouTube, spesi 270.000 dollari online, condivise 3.600 foto su Instagram, scaricate 47.000 app online e infine creati 571 siti Web.
La seconda V sta per velocità, relazionata al ritmo con cui i dati vengono generati. E non parlo solo dell’azione umana, ma ancor più della enorme quantità di sensori che li raccolgono in automatico o di servizi che costantemente ne producono come quelli della Borsa. Dati dei quali non si può sempre aspettare la memorizzazione per essere poi analizzati con calma ma che invece vanno osservati a valutati mentre scorrono, il più rapidamente possibile. Un’analisi in tempo reale che viene applicata anche ai sistemi di infotraffico che ricevono dati relativi ai veicoli con a bordo smartphone o GPS attivati, che non solo permettono di sapere cosa sta viaggiando sulle strade ma anche a quale velocità, combinando il tutto con altri strumenti di rilevazione installati sul territorio.
Una terza V da considerare è quella della varietà. Perché se da un lato i dati sono tanti, sono anche estremamente diversi tra loro, potendo includere immagini, testi, misure, da elaborare in modo appropriato. Ecco che i sistemi che lavorano sui Big Data sono in grado di integrare dati di tipologia diversa, strutturati e non strutturati, per estrarre informazioni.
V sta poi per veracità, ossia qualità e affidabilità. Spesso i dati sono rumorosi e contengono errori, che possono renderne difficile l’utilizzo. La pulizia e la preparazione dei dati diventano quindi la parte più onerosa dell’elaborazione, rappresentando l’80% dell’intero processo di estrazione di valore, laddove la parte creativa è invece il restante 20%. L’ultima V sta appunto per valore ed è quella più importante in quanto tutto il processo risulta inutile se non riusciamo a estrarre dai dati qualcosa di utile e concreto. E non significa solo valore economico per un’azienda, che può fare uso delle informazioni per azioni pubblicitarie, promozionali o altro, ma anche di valore sociale, per migliorare ad esempio i servizi sanitari e quelli più in generale destinati ai cittadini, un’area dove esiste un potenziale molto elevato di intervento.

Quali sono, quindi, i mattoni tecnologici oggi fondamentali per poter lavorare in modo efficace ed efficiente e sfruttare appieno le potenzialità di dati strutturati e non strutturati nei vari campi applicativi?

La prima cosa da dire è che per lavorare sui Big Data sono necessarie infrastrutture e tecnologie diverse rispetto a quelle del passato. Ad esempio è stato superato l’approccio tradizionale, quando i dati erano meno e ci si affidava a una grande potenza di calcolo centralizzata, decidendo piuttosto di lasciarli là dove risiedono e avvicinando a loro tante ‘piccole’ CPU che si occupano dell’analisi ed estrazione delle informazioni. Informazioni che vanno anche comprese. Ecco che è stato coniato il termine data science ossia quella capacità di estrarre significato da grandi moli di dati, raccogliendo i contributi di tante scienze diverse: dalla matematica alla statistica all’informatica, includendo anche machine learning e data mining con i relativi automatismi. Un aspetto importante di tutto questo è la visualizzazione dell’informazione che va rappresentata in maniera efficace in modo tale da poter essere utile anche a chi non è esperto di analisi.

Come funziona il processo di elaborazione dei dati?

La premessa è che non si tratta di un processo nuovo in quanto sono decenni che si ragiona sui dati. All’epoca si parlava di Knowledge Discovery in Databases, ossia la scoperta di conoscenza presente nelle basi dati. Dopo la generazione e memorizzazione dei dati, si esegue una selezione, una pre elaborazione e preparazione (la fase che assorbe più tempo), arrivando all’analisi vera e propria e fino all’interpretazione che di norma viene eseguita da specialisti di ciascun settore, esperti del dominio applicativo, e che ne discuteranno con l’analista il quale non può avere le competenze per comprenderli correttamente.

Entriamo più nel dettaglio dell’intero processo…

Detto che come abbiamo visto inizialmente ci sono dati prodotti passivamente, attivamente e automaticamente, essi vengono poi acquisiti in modalità push (un sistema che li invia) oppure pull (un sistema che li richiede). I dati per essere trasferiti hanno poi bisogno di una infrastruttura di rete, e quindi di supporti di storage, sempre più rapidi e capienti, dove essere memorizzati. E serve anche una piattaforma di gestione e memorizzazione che può lavorare con i tradizionali file, e con le basi dati in grado di trattare dati di tipologia diversa, strutturati e non strutturati. Qui entra in gioco anche la parte di programmazione che vede oggi gran parte delle attività demandate al sistema anziché al programmatore. Questo per quanto riguarda l’infrastruttura software e hardware sottostante.
Passando alla parte di analisi vera e propria abbiamo vari metodi. Alcuni metodi hanno come obiettivo la descrizione dei dati usando tecniche di osservazione degli aspetti ricorrenti che permettono di rappresentare una grande quantità di dati in modo astratto e riassuntivo. L’obiettivo è estrarre delle rappresentazioni sintetiche. Il secondo obiettivo è la predizione, imparando dal passato e da quanto è già avvenuto per prevedere cosa avverrà in futuro. È il caso, per esempio, della meteorologia dove in base a determinate condizioni possiamo prevedere che si verificherà un evento. Un terzo obiettivo è l’analisi prescrittiva per cui dopo aver eseguito una predizione, si agisce di conseguenza, come nel caso di un veicolo autonomo che può riconoscere un ostacolo sul suo percorso e frenare o sterzare per evitarlo.
Le tecniche da applicare comprendono analisi statistica, data mining, text mining, analisi dei dati di rete e dei grafi. E si appoggiano a loro volta su degli algoritmi che vanno adattati al problema da trattare, e che includono correlazione, classificazione, e clustering.

Cosa si intende nel dettaglio con questi tre termini?

La prima tipologia di analisi è quella di correlazione, che è descrittiva, ossia si tratta di scoprire che cosa capita frequentemente nei dati, identificando i paradigmi ricorrenti. Un esempio è quello delle transazioni di cassa nei supermercati che permettono di sapere che cosa viene comprato insieme, per avere informazioni utili ad esempio per condurre azioni di marketing mirate. Il secondo tipo di analisi, la classificazione, ha invece l’obiettivo di eseguire predizioni. È il caso dei filtri antispam della posta elettronica che analizzando un messaggio possono decidere se farlo giungere nella casella in arrivo oppure scartarlo. E questo lo possono fare previo addestramento, imparando le caratteristiche principali di un messaggio di spam e il suo contenuto tipico. Un campo, quello delle predizioni, cresciuto molto con la diffusione dei processori grafici ad elevata potenza e con la loro applicazione alle reti neurali che simulano a grandi linee il funzionamento del cervello umano, lavorando su problemi non lineari difficili da trattare. Oggi si parla più comunemente di deep learning, ossia apprendimento profondo, con il termine deep riferito alla complessità di queste reti, composte da tanti strati diversi e che richiedono una potenza di calcolo molto significativa. La terza tecnica è quella del clustering che ha l’obiettivo di raggruppare oggetti che si assomigliano, usando algoritmi in grado di notare dei dettagli non visibili, misurando somiglianze e differenze, ed escludendo i cosiddetti outlier o eccezioni. Il clustering può ad esempio consentire l’individuazione di comportamenti statisticamente poco frequenti come nelle ricerche genetiche per capire le cause scatenanti le malattie.

Cosa ci può dire infine delle nuove figure professionali come il data scientist?

Una sola persona non può fare tutto quanto esposto finora. È necessario che persone con competenze di tipo diverso lavorino in team collaborando e concorrendo al risultato finale. In tutto questo non bisogna dimenticare che in ogni caso la decisione finale spetta sempre all’uomo e non alle macchine.

Paolo Morati

Giornalista professionista, dal 1997 si occupa dell’evoluzione delle tecnologie ICT destinate al mondo delle imprese e di quei trend e sviluppi infrastrutturali e applicativi che impattano sulla trasformazione di modelli e processi di business, e sull’esperienza di utenti e clienti.

< Articolo precedente

Articolo successivo >