di Luca Magri e Giovanni Naldi
Quante informazioni facciamo affluire quotidianamente negli archivi dei portali web, delle compagnie telefoniche o di qualche social network? Come possono essere utilizzati tutti questi dati? In effetti, confessiamolo, più di una volta abbiamo avuto l’impressione, per esempio durante qualche ricerca in rete, che “qualcuno” abbia tenuto traccia delle nostre abitudini o dei nostri gusti (o solo delle nostre richieste). Se poi, per rilassarci un po’, ci dedichiamo alla visione di qualche evento sportivo potremmo fare l’esperienza di essere sommersi da un diluvio di dati. Un esempio tipico riguarda le partite dell’NBA, il campionato professionistico americano di pallacanestro: rimbalzi, tiri liberi, falli, passaggi,… il tutto riferito a ogni minuto di gioco e passati al vaglio degli analisti sportivi.
Le due situazioni descritte brevemente rappresentano altrettanti esempi di “big data”, termine introdotto recentemente per indicare una raccolta di dataset (ovvero di collezioni di dati) complessa e di grandi dimensioni.
La qualifica di “big” è legata alla mole che solitamente hanno questi archivi (per esempio si stima che ogni giorno gli utenti della rete informatica producano la bellezza di 1030 bytes), e, soprattutto, al fatto che molto spesso i dati in questione possono essere descritti come punti in spazi di dimensione estremamente alta. Per esempio, nel caso dei giocatori di pallacanestro possiamo associare a ogni giocatore un vettore che contenga indici statistici riguardanti alcune caratteristiche (normalizzate rispetto al numero di minuti giocati): punti segnati, rimbalzi, assists, blocchi, palle perse, falli fatti,… Ogni giocatore sarà quindi rappresentato da un punto in uno spazio di dimensione uguale al numero di caratteristiche prese in considerazione.
Il caso di dati rappresentabili con vettori o con sequenze alfanumeriche, per esempio si pensi alle sequenze dei circa tre miliardi nucleotidi di base che compongono il DNA umano, è un caso fortunato. “Siamo abituati a pensare ai dati come a dei vettori di numeri e coordinate” spiega Jesse Johnson un matematico della Oklahoma State University in una intervista per il Quanta Magazine, “ma i dati che provengono da Twitter o da Facebook non assomigliano affatto a questi oggetti matematici. C’è bisogno di un modo più sofisticato per trasformare questi dati in vettori o bisogna trovare un modo più generale per analizzarli” conclude Johnson.
Gli fa eco Simon DeDeo, ricercatore del Lab for Social Minds del Santa Fe Institute, a cui è spettato analizzare i 300 anni di pratiche archiviate nella London’s Old Bailey (la corte criminale centrale di Galles e Inghilterra) e che sostiene di trovarsi di fronte a un problema del tutto nuovo, dal momento che i big data hanno poco a che spartire con i tradizionali dataset con cui di solito si confrontano i fisici: “in fisica di solito si ha un solo tipo di dati e per di più si conosce molto approfonditamente il sistema che li ha prodotti, ora invece abbiamo questi nuovi dati multimodali che sono stati raccolti prima di avere un’ipotesi di studio”.
Riassumiamo allora brevemente le caratteristiche dei big data riprendendo una definizione, seppur non precisa, utilizzata comunemente: la definizione delle tre V. I big data sono definiti da:
1. Volume. Memorizzare e gestione di grandi quantità di dati (si parla facilmente di terabye o pentabyte).
2. Velocità. Le informazioni cambiano dinamicamente attraverso l’acquisizione di nuove collezioni di dati e da fonti differenti. Inoltre la velocità si riferisce anche alla necessità di elaborare rapidamente le nuove informazioni legandole alle informazioni già acquisite (si pensi per esempio alla necessità di identificare una frode).
3. Varietà. I dati sono di qualsiasi tipo, dati strutturati e non strutturati come, ad esempio, dati di testo, dati dei sensori, dati audio, file di log, dati video e altri ancora.
Sottolineiamo infine che le difficoltà per il trattamento dei big data sono più di una semplice questione di dimensioni: occorre gestire ed elaborare informazioni eterogenee, dinamiche e provenienti da sorgenti differenti. Ovviamente la prima domanda che sorge è: perché raccogliere tutti questi dati? In che modo possono esserci utili?
Un esempio considerato esemplare dagli esperti di marketing è il caso della multinazionale Walmart, la più grande catena di distribuzione di beni di consumo del mondo. Questa azienda colleziona ogni ora i dati relativi alle proprie transazioni commerciali e li relaziona a fattori quali luogo, composizione del carrello, disponibilità a magazzino, frequenza degli acquisti e altro ancora. Se, per esempio, un cliente ha acquistato in passato l’attrezzatura per il barbecue e in seguito alcuni prodotti accessori, potrebbe essere interessato ad articoli non ancora acquistati. Analizzando la disponibilità dei prodotti, le informazioni meteo, i dati relativi alla localizzazione del cliente, un sistema automatizzato invierà dei buoni sconto per invogliare il cliente all’acquisto, ma solo se il tempo sarà buono, se ha già preso il barbecue e se si trova in un raggio di pochi chilometri da un punto di vendita.
Un esempio differente riguarda uno studio recente nato nell’ambito di una collaborazione tra University of Limerick e University of Oxford, e pubblicato sui Proceedings of the National Academy of Sciences of the United States of America. In particolare viene proposto un nuovo modello matematico per descrivere l’utilizzo di applicazioni da parte degli utenti di Facebook. Questo lavoro si basa su un insieme di dati rilevati ogni ora dal 25 Giugno 2007 al 14 Agosto 2007 e sul numero di volte in cui una applicazione Facebook era installata (nel 2007 erano disponibili 2705 applicazioni). All’epoca, gli utenti di Facebook potevano vedere in ogni momento una lista delle applicazioni più installate e un elenco delle applicazioni recentemente installate dai propri “amici”. La domanda dello studio: è possibile capire ciò che rende un’applicazione più “installata” di un’altra? Il modello proposto si basa su due possibili dati che possono influenzare l’utente: una preferenza ad installare applicazioni sulla base dell’elenco delle attuali applicazioni “best seller” e una preferenza che si basa invece sulla popolarità delle applicazioni installate dai propri amici. L’utilizzo dei big ha permesso di identificare i parametri del modello e di concludere che, sebbene gli utenti sembrino influenzati da entrambi i meccanismi, l’effetto dominante sulla dinamica delle installazioni è causato dal comportamento recente degli altri utenti amici. In altri termini, la tendenza di copiare il comportamento degli amici è di gran lunga il meccanismo dominante. Forse questo non meraviglia: quante volte abbiamo ascoltato una canzone poco nota o letto un libro perché consigliati da un amico?
[continua… trovate qui la seconda puntata]
Luca Magri, Giovanni Naldi
Dipartimento di Matematica “F. Enriques”, Università degli studi di Milano