Pin It

In questi giorni veniamo bombardati di grafici, tabelle, dati e previsioni da tutte le parti. Abbiamo molto tempo a disposizione e l’argomento del giorno (l’evoluzione dell’epidemia da coronavirus) è sulle bocche (o meglio nei social) di tutti. Ma davvero riusciamo a capire bene cosa dicono i dati? E perché mai, se i dati sono dati, la matematica è oggettiva e i numeri non mentono mai, ogni analisi e ogni modello sembra dare risposte diverse? Prova a darci una sua spiegazione, prendendola un po’ larga, Samuele Mongodi, ricercatore di Geometria presso il Politecnico di Milano.

Di serpenti, frullatori e libri gialli
ovvero
di dati, analisi e statistiche

Pensateci un po’, i serpenti fanno paura. E anche le loro cugine campagnole, le bisce, di certo non godono di ottima reputazione.

Un suggerimento ce lo dà il parlare comune: del serpente non ci si fida, è insidioso, è pericoloso. Tutto vero, ma animali altrettanto selvaggi e pericolosi (o peggio) non suscitano la stessa paura.
Leoni, tigri, giaguari, orsi possono essere anche più pericolosi di un serpente, ma non ci fanno così paura. Invece i serpenti (e i ragni, gli scorpioni e altre amenità) mettono quasi chiunque a disagio e in una piccola parte di persone instillano un deciso senso di terrore.

Il problema, coi serpenti, è che non li capiamo. Li vediamo, sappiamo cosa fanno, come si muovono, ormai sappiamo anche come si nutrono, come cacciano, come funziona la loro biologia, ma *intuitivamente* non li capiamo: fatichiamo a collegare i loro comportamenti a intenzioni e scopi, le loro reazioni a sensazioni e atteggiamenti, come invece sappiamo fare con un cane o come ci illudiamo di saper fare con un gatto.

Ed è per questo che gli incantatori di serpenti sono figure misteriose, di cui non ci si fida o che si ammira incondizionatamente, sempre per il motivo che davvero non capiamo come diamine fanno.

Ecco, i DATI sono come i serpenti. Non li capiamo, a livello intuitivo. Non sappiamo cosa vogliono dirci, né se davvero vogliono dirci qualcosa.

Esempio: Cosa vogliono dire i DATI?
Vi faccio un esempio (no, per carità, non sul coronavirus): volete comprare un frullatore su Amazon e finalmente trovate il modello che fa per voi; ci sono due venditori, con prezzi sostanzialmente identici, uno ha una soddisfazione del 90% con 20 recensioni, l’altro ha una soddisfazione dell’88% con 200 recensioni. Qual è meglio? E se il primo profilo avesse avuto il 90% su 30 recensioni?

Non so se vi stupirà, ma con 20 recensioni è statisticamente meglio il secondo, con 30 recensioni è statisticamente meglio il primo. Già lo sapeva quel patito di shopping online di Laplace e questo è un primo esempio di quanto possano ingannare i DATI.

Esempio: Da dove sono stati ottenuti i DATI?
Per passare il tempo in quarantena, vi cercate un bel libro giallo, una storia di detective, e trovate “Lord Darcy”. Ma, come me, siete sempre paranoici quando comprate qualcosa online e volete almeno vedere qualche recensione/valutazione/punteggio. Quindi cercate con google il titolo del libro e leggete, sul primo sito che trovate, FantasyMagazine, che il vostro libro ha un gradimento del 70% tra gli utenti.
Lo ordinate e non vi piace! Ma proprio zero. Che schifo di detective, sto Lord Darcy. E sì che aveva il 70% di gradimento.

Che succede? Beh, guardate su GoodReads e trovate un gradimento molto inferiore, circa il 37%.
Com’è possibile? Chi ha sbagliato? A peggiorare la situazione, si aggiunge il fatto che, provando per noia altri siti, trovate, per lo stesso libro, gradimenti totalmente a caso che vanno dal 30% all’80%. Insomma, non funziona, sta statistica.

Certo che funziona, ma bisogna avere tutti i dati… bisogna sapere che il 60% degli utenti di FantasyMagazine ha una preferenza per i contenuti “fantasy” (ma dai!) e che tale gruppo di utenti è in realtà di solito il 15% o meno (ad esempio, su GoodReads è circa il 15%). Allora potreste capire che tra gli altri utenti (a cui, in quanto appassionati di libri gialli, appartenete) il gradimento del libro che vi siete appena letti è circa il 25%… non proprio un bestseller.

Insomma, i DATI non ci dicono niente, i numeri non “parlano da sé”, non sono mai chiari, lampanti, è rarissimo che non richiedano commenti. Anzi, come per i serpenti servono gli incantatori, così per i DATI serve chi li addomestichi, chi ne spieghi il linguaggio, le reazioni, i comportamenti.
Il problema è qui di fiducia: chi parla coi serpenti non può essere degno di maggior fiducia di quella riservata ai subdoli rettili (guardate un po’ Voldemort…) e dunque chi interpreta i DATI non può essere affidabile, visto quanto traditori e infingardi sono i DATI stessi. Questi misteriosi sacerdoti delle medie e delle varianze, gli STATISTICI, ce ne mettono poi del loro, contraddicendosi evidentemente l’uno con l’altro, tirando fuori, con sadismo impareggiabile, DATI da altri DATI, calcolando medie, varianze, intervalli di confidenza, tassi di crescita, incertezze, con riti antichi e misteriosi, integrando, derivando, fittando addirittura!, tutto per tenere a bada quella tremenda bestia che è il ChiQuadro (guai crescesse!).

Ebbene, è davvero così? Forse no. Ancora una volta, i DATI da soli non dicono niente. Non dicono nemmeno come trattarli per ottenere informazioni: se ci fosse un modo meccanico di prendere i numeri e maltrattarli per ottenere le risposte volute, non ci sarebbe bisogno di questi misteriosi sacerdoti, devoti a Nostra Signora della Statistica; i DATI sono utili solo se uniti alla descrizione di un MODELLO del fenomeno che li ha prodotti e di MODELLI se ne possono fare molti, con molte varianti. E cos’è un MODELLO? Qui il discorso si fa troppo lungo, ma, in breve, un MODELLO è una semplificazione matematicamente trattabile della realtà. E allora prendiamo il MODELLO migliore! Eh, non esiste… in un MODELLO si fanno delle Assunzioni per descriverlo (le semplificazioni di cui sopra), si introducono delle Approssimazioni per calcolarlo, si individuano delle Applicazioni per cui lo si vuole utilizzare.
E queste tre A litigano tra loro, tirando da una parte e dall’altra, nel determinare quanto è buono un MODELLO.

Di più, quelle tre A di solito sono di competenza di aree del sapere diverse. Immaginatevi i litigi…. un tiro alla fune tra virologi, matematici, epidemiologi, biologi, etc etc.

In conclusione (e finalmente, direte voi, ansiosi di provare il nuovo frullatore):
– i DATI da soli non dicono nulla: serve sapere da dove arrivano e come usarli
– per sapere da dove arrivano servono informazioni sulla raccolta dei DATI
– per sapere come usare i DATI servono competenze STATISTICHE
– per applicare la STATISTICA serve aver deciso un MODELLO del fenomeno
– per decidere un MODELLO del fenomeno serve analizzarne le Assunzioni, le Approssimazioni, le Applicazioni
– le Assunzioni sono litigate tra chi è esperto del fenomeno e i matematici/statistici
– le Approssimazioni sono litigate tra i matematici/statistici e chi vuole applicare il modello
– le Applicazioni sono litigate tra chi vuole applicare il modello e chi è esperto del fenomeno.

Quindi, forse, è meglio prestare attenzione quando si commentano, si condividono o anche solo si guardano dati e grafici in cui “i numeri parlano da sé”. Non lo fanno, se non in lingue arcane che vanno spesso tradotte ed interpretate, anche in funzione del “passato” di questi numeri: da dove vengono, come sono stati ottenuti, come sono stati trattati, con che finalità, etc. etc.

Samuele Mongodi

Alberto Saracco

Pin It
this site uses the awesome footnotes Plugin