Pin It

I modelli della matematica coinvolgono diverse discipline, dalla fisica alla medicina, dall’economia alla sociologia. La loro efficacia sorprende. È il caso della legge di Zipf. Ce ne parla Marco Menale.

L’impatto della matematica sulla società aumenta con il progresso tecnologico e le sfide, presenti e future. È stato così per i modelli epidemiologici nel corso della recente pandemia di COVID-19, oppure per gli sviluppi dell’intelligenza artificiale e i suoi algoritmi. Questo coinvolge le più svariate discipline: dalla fisica alla medicina, dall’economia alla sociologia. Tuttavia ogni volta colpisce l’irragionevole efficacia della matematica, come scriveva il fisico e matematico ungherese Eugene Paul Wigner, poi naturalizzato statunitense. Wigner si riferiva alle scienze naturali, ma la matematica fa incursione anche in altri campi. È il caso della linguistica con la legge di Zipf.

George Kingsley Zipf è stato un filologo e linguista americano. Si è occupato principalmente delle occorrenze statistiche di uno stesso fenomeno all’interno di diverse lingue. Ha applicato la matematica allo studio e l’analisi delle lingue dell’umanità, così da descrivere e comprendere il perché di alcune analogie. Zipf formula la legge che porta il suo nome nell’articolo del 1949 “Human behavior and the principle of least effort”.

Ma qual è il problema di partenza? Zipf osserva  un’analogia tra le varie lingue, studiando le frequenze con cui compaiono le parole nelle diverse lingue e le loro distribuzioni. E giunge a formulare un legge empirica: nelle varie lingue ci sono poche parole con elevata frequenza e tante con bassa frequenza. Dunque se apriamo a caso il dizionario di una lingua, è più probabile trovare una parola meno usata rispetto a una più usata.

Come si traduce a livello matematico? Sia \(f(k)\) la frequenza della \(k\)-esima parola più frequente, in una data lingua. La variabile \(k\) prende il nome di rango di frequenza della parola. Nella sua forma più semplice, la legge di Zipf è

\[f(k)\approx \frac{1}{k^s},\]

dove \(s\geq 1\). Ad esempio assumiamo \(s=1\). La parola più frequente, ossia con rango di frequenza \(1\), ha frequenza proporzionale a \(1\). La seconda ha frequenza proporzionale a \(\frac{1}{2}\), ossia ricorre la metà della volte rispetto alla prima. La terza, invece, ricorre \(\frac{1}{3}\) delle volte rispetto alla prima.

La legge di Zipf è una tipica legge di potenza. E il modo più comodo per rappresentarle è usare un log-log plot, ossia un grafico cartesiano con scala logaritmica su entrambi gli assi. In questo modo un set di dati rispetta la legge di Zipf se in una rappresentazione log-log plot si distribuisce lungo una retta. Nella figura 1 si vede come diverse lingue (in termini di ceppi di provenienza) rispettino la legge di Zipf.

Legge di Zipf

Figura 1. Distribuzioni delle frequenze delle parole in diverse lingue in rappresentazione log-log plot. Fonte: Zipf’s word frequency law in natural language: A critical review and future directions, S.T. Piantadosi.

Ci sono versione più sofisticate della legge di Zipf. Tra le altre c’è quella introdotta nel lavoro “Structure of language and its mathematical aspects” dal padre dei frattali, il matematico polacco Benoit Manderlbrot. E questa legge, come le altre leggi di potenza trova anche altri ambiti di applicazione: economia, teoria dell’informazione, sicurezza delle centrali nucleari e altro. Un’altra prova dell’irragionevole efficacia della matematica.

 

Marco Menale

Pin It
This website uses the awesome plugin.