Quando i dati non bastano: Il metodo bootstrap

da Marco Menale | 12 Maggio 2022 | Divulgazione, La lente matematica | 0 commenti

Il metodo bootstrap consente di estrapolare le informazioni su di un’intera popolazione a partire da quelle su uno specifico campione. Ce ne parla Marco Menale.

Ogni giorno leggiamo e ascoltiamo di statistiche e sondaggi. Dall’incidenza dei nuovi casi di SARS-CoV-2 ai sondaggi in vista delle prossime elezioni. E poi ci sono i periodici rapporti di istituti di ricerca, come ISTAT e SIPRI. “Il reddito medio degli italiani” e frasi come queste le ascoltiamo di continuo. Eppure queste frasi insospettiscono. Infatti non sono stati intervistati tutte le italiane e tutti gli italiani, cosa impossibile sia per motivi economici che realizzativi. Solo una parte della popolazione ha partecipato al sondaggio. Ma una tecnica statistica interviene in questa fase per stimare i valori di una grandezza sull’intera popolazione a partire dai dati su un suo campione. È il metodo bootstrap (o bootstrapping, in inglese).

L’ideatore di questa tecnica è lo statistico americano Bradley Efron. Laureato in matematica al Caltech, consegue il dottorato in statistica a Stanford. Tra l’altro in quel periodo viene sospeso assieme ad altri studenti per aver collaborato alla stesura della rivista satirica Stanford Chaparral. I suoi lavori vertono sulla statistica inferenziale. Efron propone il metodo bootstrap nel 1979 nell’articolo “Bootstrap Methods: Another Look at the Jackknife”. In seguito vince diversi premi. Ricordiamo tra gli altri la Wilks Medal, la National Medal of Science e l’International Prize in Statistics.

Guardiamo al metodo bootstrap con un esempio. Vogliamo stimare l’altezza media della popolazione italiana. Non possiamo misurare le altezze di tutti i cittadini. E se pure fosse possibile, comunque bisognerebbe tener conto degli errori nelle misurazioni per il calcolo della media. Allora raccogliamo i dati relativi ad un campione quanto più rappresentativo dell’intera popolazione. Ma è l’unico campione a disposizione. Come possiamo stimare la media delle altezze e la sua variabilità?

L’intuizione di Bradley Efron è pensare il campione come l’intera popolazione. In questo modo possiamo selezionare dei sottocampioni dal campione di partenza e vederli come diversi campionamenti dell’intera popolazione. I sottocampioni hanno la stessa taglia del campione di partenza. Sono costruiti estraendo a caso dai valori del campione iniziali e ciascun valore può essere estratto più volte. Ad esempio consideriamo il campione di altezze $(1,74; 1,80; 1,64; 1,78)$ . Con il metodo bootstrap possiamo ottenere come sottocampione l’insieme $1,74; 1,74; 1,64; 1,80)$ .

Torniamo al problema della media dell’altezza in Italia. Abbiamo un campione di dati realmente osservati, ad esempio $40.000$ . A questo punto applichiamo il metodo bootstrap e costruiamo tanti sottocampioni di dimensione $40.000$ . Calcoliamo la media di ciascun sottocampione, anche con tecniche diverse. Siamo così in grado di ottenere una stima della media cercata.

In generale il metodo bootstrap consente di stimare grandezze statistiche sull’intera popolazione a partire da un solo campione. Pur sembrando una semplice riscrittura di cose già note, funziona perché può essere provata la convergenza. Inoltre può essere interpretato anche in chiave bayesiana (qui per i dettagli). Tuttavia questa tecnica richiede molti calcoli. Infatti per funzionare bene è necessario costruire tanti sottocampioni diversi e calcolare su ciascuno la grandezza di interesse. È la crescente potenza di calcolo dei computer a superare quest’ostacolo e ampliare il campo di applicazione di questa intuizione.