Pin It

Nel leggere un insieme di dati siamo tendenzialmente colpiti dai valori strani. Ad esempio, nel caso delle recensioni di un ristorante, balza all’occhio trovare tante, troppe valutazioni positive. Negli anni Sessanta l’analista di dati per i media Tony Twyman tratta questo problema nell’articolo “On Measuring Television Audencies”. È così formulata una legge che porta il suo nome, la legge di Twyman: i dati più insoliti o interessanti di una raccolta sono di solito frutto di errori.

Nella maggior parte dei casi si tratta di errori di misurazioni o di analisi. Può trattarsi di errori legati alla sensibilità degli strumenti. E poi c’è tutta la questione relativa all’enorme numero di dati registrati quotidianamente. Per esempio, nel solo 2014 sono state fatte circa 35 miliardi (35 seguito da nove zeri!) di transazioni finanziarie al giorno, cioè quasi tredicimila miliardi in un anno. A fronte di questi numeri, non bisogna stupirsi di trovarne molti registrati male, sia per errori umani che legati ai sistemi di archiviazione. Nel primo caso rientrano (tra gli altri) gli errori di trasposizione delle cifre, scrivere due cifre nell’ordine sbagliato: un 57 che diventa 75.

E poi ci sono le frodi. In alcuni casi la legge di Twyman deriva dalla manipolazione umana dei dati. Lo statistico americano Howard Wainer nell’articolo “Curbstoning IQ and the 2000 Presidential Election” riporta uno studio dell’ufficio di censimento degli Stati Uniti del 1986 che stima che i rilevatori di dati falsifichino in qualche modo i dati perché troppo pigri per occuparsi di raccoglierli. A questi si aggiungono i tentativi intenzionali di manipolazione che determinano altre storture.  Nel 2016 un altro statistico americano, Thomas Redman, nell’articolo “Bad Data Costs the U.S. $3 Trillion Per Year” stima in oltre 3100 miliardi di dollari l’impatto della scarsa qualità dei dati sull’economia degli Stati Uniti.

Quando un set di dati insolito può essere definito reale ed interessante? Secondo i ricercatori in data mining solo dopo aver tenuto conto dei quattro seguenti aspetti: problemi nella raccolta dei dati, fluttuazioni casuali, l’informazione è già nota, l’informazione non è interessante. Perché come sosteneva lo statistico americano Joseph Kruskal nell’articolo “Statistics in Society: Problems Unsolved and Unformulated”:

“una persona mediamente intelligente, con un po’ di buon senso e di dimestichezza con i numeri, potrebbe sedersi davanti a qualunque grande insieme strutturato di dati o a qualunque raccolta di statistiche e trovare in meno di un’ora qualche numero dall’aria sospetta”.

 

[Illustrazione di Luca Manzo]

Marco Menale

Pin It
This website uses the awesome plugin.