La Legge dei Grandi Numeri compie 300 anni. Ce ne parla Marco Isopi, Professore Associato di Calcolo delle Probabilità alla Sapienza Università di Roma.
Un’idea che risale a Girolamo Cardano
“Prevedere l’esito del lancio di una moneta è più difficile che prevedere l’esito di mille lanci di moneta”. È assurdo? Oppure è ovvio? L’una o l’altra cosa a seconda del significato che attribuiamo alla precedente affermazione. Prendiamo un moneta non truccata (si chiama moneta equa): testa e croce hanno la stessa probabilità (NB.: espressamente scegliamo di non provare a definire cosa sia la “probabilità”: si finisce sempre col litigare!). Se nel prevedere un singolo lancio non abbiamo ragione di preferire uno dei due esiti, tanto più sarà molto difficile indovinare quello che succederà in una successione di mille lanci. Però possiamo dire che il numero di teste sarà approssimativamente pari al numero di croci. Ma che vuol dire? Che dopo 999 lanci con 500 teste e 499 croci, per andare in pari il millesimo lancio deve essere testa? No. Dopo 999 lanci l’esito del millesimo potrà essere sia testa che croce con uguale probabilità. Però possiamo dire a priori che la probabilità che su 1000 lanci vi siano più di, per esempio, 700 teste è piccolissima. Con l’aumentare del numero di lanci, previsioni di questo tipo diventano più accurate. Questa osservazione risale almeno al matematico Girolamo Cardano nel ‘500, ma era completamente estranea al pensiero greco dell’epoca classica ed ellenistica. Per gli antichi il caso rappresentava la volontà degli dei e il suo studio non faceva quindi parte di una filosofia della natura.
La formalizzazione matematica “del caso”: i Bernoulli
Matematizzare l’osservazione di Cardano costituiva pertanto un problema formidabile: non c’erano precursori concettuali, né strumenti tecnici di provata utilità. La soluzione arriva esattamente trecento anni fa con la pubblicazione, postuma, dell’opera di Jakob Bernoulli Ars Conjectandi. Nel secolo precedente l’applicazione della matematica allo studio del caso si era limitata all’analisi di alcuni giochi d’azzardo. Bernoulli aveva iniziato a lavorare sulla matematizzazione del caso motivato da possibili applicazioni alle scienze sociali e dedicato gli ultimi tre lustri della sua vita alla redazione della sua opera. Nel 1708, al momento della sua morte, a suo giudizio non era ancora abbastanza matura da essere pubblicata. Lo farà cinque anni dopo il nipote Nicolaus Bernoulli, ossia esattamente trecento anni fa. J. Bernoulli dimostra la sua legge debole dei grandi numeri che, usando un linguaggio moderno possiamo enunciare nella forma seguente:
Teorema Si effettuino \(N\) lanci di una moneta che dà testa con probabilità \(\frac{1}{2}\) e sia \(S_N\) il numero di teste. Allora, per ogni \(\varepsilon>0\):
Che detto in linguaggio comune vuol dire che se ho una moneta equa, al tendere all’infinito del numero dei lanci, diventa sempre più piccola, fino a tendere a zero, la probabilità che la media del numero di lanci in cui esce testa sia maggiore di \(\frac{1}{2}\). In realtà Bernoulli dimostra di più. Nel determinare quanti lanci sono necessari per ottenere una precisione fissata, mostra che la convergenza è esponenziale, con un tasso non molto lontano da quello ottimale. È il primo risultato nel campo delle grandi deviazioni, la branca del calcolo delle probabilità che tratta di eventi rari. Il secondo arriverà, grazie a Harald Cramér, solo nel 1938. Il risultato di Bernoulli è un progresso decisivo: le sue generalizzazioni comprendono alcune delle idee più importanti della storia matematica. Vediamone cinque, legate a campi di ricerca in piena attività.
1. Il teorema Bernoulli tratta di deviazioni dalla media di ordine \(N\) e ci dice che hanno probabilità molto bassa. Quanto è grande la deviazione tipica? La risposta sarà data solo pochi anni dopo da Abraham De Moivre che nel 1718 dimostrerà il suo teorema del limite centrale: le deviazioni tipiche sono di ordine \(\sqrt{N}\).
2. E se invece di lanciare una moneta consideriamo una successione di esperimenti con molti esiti? Se gli esiti sono in numero finito, è possibile adattare con diligenza la dimostrazione di Bernoulli, ma la combinatoria diventa sempre più difficile da maneggiare. E se gli esperimenti non sono tutti identici? Tutte queste difficoltà tecniche compaiono introducendo l’idea di variabile aleatoria (Chebyshev 1867): una funzione dallo spazio di tutti gli esiti possibili ai reali. Nasce la formulazione moderna del calcolo delle probabilità che sarà poi assiomatizzata da Kolmogorov.
3. Le leggi dei gas e più in generale la termodinamica sono leggi fondamentali o sono conseguenza delle leggi di Newton? Il passo avanti decisivo viene con una geniale intuizione di Boltzmann: l’ipotesi ergodica. L’idea che la media su molte osservazioni coincida con quella fatta su una distribuzione di probabilità, una forma delle legge dei grandi numeri, permette a Bolzmann di stabilire un ponte tra la meccanica e termodinamica. Dal lavoro Boltzmann nascono la meccanica statistica e la teoria ergodica.
4. Nel teorema di Bernoulli prendiamo una successione finita di lanci, calcoliamo la proporzione di teste e la probabilità che questa si discosti da \(\frac{1}{2}\). Tale probabilità tende a zero. Ma perchè si chiama legge debole? Perchè c’è una legge forte che dice di più. Presa una successione infinita di lanci, la probabilità che la proporzione di teste tenda a \(\frac{1}{2}\) è 1. Un’enunciato molto pulito, ma per dargli un senso è necessario parlare della probabilità di successioni infinite. A questo scopo Borel e altri inventano parti importanti della teoria della misura. La legge forte è anche il primo esempio di un modo nuovo di di guardare al limite di una successione di oggetti. Classicamente si prende una caratteristica numerica degli oggetti in questione e se ne studia il limite. Nell’ultimo secolo abbiamo invece cominciato a chiederci quale sia il limite degli oggetti stessi.
5. Sinora abbiamo parlato di media aritmetica di molte quantità. Ma dobbiamo davvero limitarci alla somma? Se nella media aritmetica di molte quantità cambiamo uno degli addendi, il valore cambia di poco. Per una legge dei grandi numeri non serve altro. Prendiamo una funzione di molte variabili che dipende poco da ciascuno degli argomenti e calcoliamo per argomenti aleatori; il suo valore sarà con alta probabilità molto vicino alla media. Questa generalizzazione non lineare della legge dei grandi numeri si chiama proprietà di concentrazione ed è una scoperta piuttosto recente legata alla geometria convessa e all’analisi funzionale.
Cosa ci riserveranno i prossimi 300 anni di legge dei grandi numeri?
Marco Isopi
Trackback/Pingback