Ma si applica la Legge di Benford alle elezioni presidenziali americane?

da admin | 17 Novembre 2020 | Uncategorized

In un precedente articolo, pubblicato su queste pagine solo tre settimane fa, si discuteva della Legge di Benford e della sua applicazione al numero di morti per COVID-19 nel mondo. Neanche a farlo apposta, nelle ultime 2 settimane la Legge di Benford, solitamente relegata a (pochi) dibattiti accademici o (pochi) siti di matematica, ha visto la sua notorietà balzare agli onori della cronaca, specialmente su social media ma anche su importanti mezzi di informazione. La causa è il dibattito in corso sulle elezioni presidenziali americane, unico evento che a novembre ha conteso le prime pagine dei giornali alla pandemia che stiamo affrontando. Leggiamo un approfondimento di Gabriele Carelli.

Per quale motivo la Legge di Benford è entrata nel dibattito, tuttora in corso, tra sostenitori di Trump e supporter di Biden? Per capirlo, è necessario fare un passo indietro e ricordare velocemente cosa sia la Legge di Benford e come, e quando, si possa applicare. Come riporta Wikipedia, questa legge

is an observation about the frequency distribution of leading digits in many real-life sets of numerical data. The law states that in many naturally occurring collections of numbers, the leading digit is likely to be small. For example, in sets that obey the law, the number 1 appears as the leading significant digit about 30% of the time, while 9 appears as the leading significant digit less than 5% of the time. If the digits were distributed uniformly, they would each occur about 11.1% of the time.

Un insieme di numeri rispetta la Legge di Benford se la distribuzione della prime cifre (quindi delle cifre più significative) di tale insieme rispetta una determinata legge probabilistica. In dettaglio, detta \(d\), con \(d\in\{1,\dots,9\}\), la prima cifra, si ha

\(P(d)=\log_10(1+\frac 1 d) \ \ \ \ \ \ \ \ \ \ \ \ \ [1]\)

Si può quindi facilmente calcolare la distribuzione attesa per la prima cifra:

Apportando poche modifiche alla [1], la legge di Benford si può estendere anche alla distribuzione delle seconde cifre significative, delle terze, ecc…

Tale legge si applica ad insieme vari ed eterogenei di dati ma ovviamente non si applica a tutti i fenomeni, naturali o umani che siano; ha dei limiti ben precisi. Nell’articolo in cui abbiamo applicato la legge di Benford ai morti da COVID-19 si citavano le seguenti condizioni necessarie, ma comunque non sufficienti, affinché un insieme di dati segua la legge di Benford:

ogni campione deve essere indipendente dagli altri
deve essere sufficientemente vario da abbracciare diversi ordini di grandezza (ad esempio la lunghezza dei fiumi che può essere di centinaia o migliaia di metri, decine ma anche centinaia o migliaia di chilometri)
non siano imposti limiti inferiori o superiori ai dati considerati (ad esempio la popolazione di paesi sotto i 1000 abitanti con molta probabilità non seguirà tale legge)
non sia composto da numeri identificativi costruiti su strutture “artificiali” (ad esempio i numeri di telefono o coordinate bancarie non seguono tale legge)

Non è banale dimostrare matematicamente il *perchè* in alcuni processi, come ad esempio la lunghezza dei fiumi o la popolazione di ogni paese/città di una Nazione, la legge possa essere valida; può però essere interessante darne una giustificazione qualitativa. La seconda “condizione necessaria” elencata richiede che il campione di dati debba abbracciare diversi ordini di grandezza. Si deve quindi trattare di un processo “incrementale”, un processo in cui le dimensioni dei campioni possa crescere. E la crescita del campione analizzato è proprio il punto cruciale da considerare:

partendo da un campione che inizi con “1” (1, 10, 100, ecc …) possiamo passare ad un campione che inizi con “2” solo aumentando il campione del 100%
partendo da un campione che inizi con “2” (2, 20, 200, ecc …) possiamo passare ad un campione che inizi con “3” aumentando il campione del 50%
\(\dots\)
partendo da un campione che inizi con “8” (8, 80, 800, ecc …) possiamo passare ad un campione che inizi con “9” aumentando il campione del 12%

Quindi, è più “difficile” passare da “1” a “2” di quanto sia, ad esempio, passare da “2” a “3”, da questi a “4” e, ancora più, passare da “8” a “9”. È quindi prevedibile che la distanza tra P(1) e P(2) sia maggiore di quella tra P(2) e P(3), che questa sia maggiore della distanza tra P(3) e P(4) e così via… E questo andamento è ovviamente garantito da un andamento logaritmico.

Vista la semplicità, ma anche la potenza, di tale legge, negli anni si è cercato molte volte di applicarla ad elezioni politiche per cercare di determinare eventuali frodi che abbiano avuto luogo nel corso del processo di conteggio dei voti. In particolare si citano elezioni Iraniane del 2009 e Russe del 2012. L’idea di base è che la distribuzione di voti “reali” debba seguire una distribuzione di Benford mentre un evento “truccato” sia manipolato in maniera tale da alterare questa distribuzione attesa. Un discostamento dalla legge di Benford deve essere quindi sintomo di manipolazione dei dati.

E proprio una simile campagna è stata proposta da alcuni militanti pro-Trump già a partire dal giorno dopo le elezioni, a risultati ancora incerti e contestati: lo studio della distribuzione dei voti assegnati a Trump avrebbe seguito la legge di Benford mentre quelli assegnati a Biden no; e questa dovrebbe essere una prova matematica, incontrovertibile, del fatto che i voti assegnati a Biden sarebbero stati ritoccati artificialmente.

Ad esempio, in un thread su Twitter compare la seguente immagine:

ricavata analizzando i voti della contea di Milwaukee. Effettivamente i voti assegnati a Trump sono più simili alla distribuzione teorica di Benford rispetto a quelli assegnati a Biden. Ma è questa, veramente, una prova di frodi elettorali?

In questo articolo ci occupiamo di matematica, e non di politica o giustizia, e quindi proviamo ad analizzare asetticamente i dati per capire se ci saremmo dovuti aspettare una applicazione della distribuzione di Benford a dati delle elezioni politiche americane. La risposta, in breve, è NO. Perchè no? Perchè viene a mancare almeno una delle condizioni necessarie prima elencate:

Il campione deve essere sufficientemente vario da abbracciare diversi ordini di grandezza

Tale condizione non viene rispettata per un motivo molto semplice: nelle elezioni americane i votanti sono divisi in distretti (precint), un po’ come i “seggi” in Italia, e l’applicazione della legge di Benford è stata testata, almeno nelle rivendicazioni pro-Trump, considerando i voti espressi in ogni distretto all’interno di una singola contea. I distretti in questione, però, hanno una dimensione più o meno costante all’interno di una contea: ogni distretto rappresenta un numero di elettori all’incirca equivalente. Wikipedia riporta un numero medio di 1.100 votanti¹ per tutti i distretti degli Stati Uniti con variazioni all’interno di ogni stato ma sempre mantenendo una desiderata “costanza” nelle dimensioni di ogni distretto all’interno dello stesso stato. Il numero di voti possibili di ogni candidato, quindi, non abbraccia diversi ordini di grandezza ma è limitato dalla dimensione del distretto in questione, dimensione che abbiamo detto essere costante. Inoltre, le percentuali di preferenze per i diversi candidati varia poco all’interno di una stessa contea. Supponiamo, ad esempio, distretti della dimensione di 1000 votanti ed una preferenza per il candidato Topolino che varia tra il 50% ed il 60%: ovviamente questo avrà un numero di voti, in ogni precint, quasi sempre tra 400 e 700, la distribuzione della prima cifra, quindi, presenterà picchi tra il 4 ed il 7. E questo contrasta con la distribuzione di Benford.

Di più.

Sappiamo che le elezioni americane sono fortemente polarizzate con due candidati molto forti, diciamo Topolino e Paperino, che si contengono la quasi totalità dei voti; altri candidati hanno quasi sempre un numero di voti trascurabile.

Riprendiamo quindi l’esempio precedente, con distretti di 1000 votanti ognuno, ed ipotizziamo che il candidato Topolino abbia un numero di voti che segue, approssimativamente, la distribuzione di Benford. Questi avrà quindi un 30% di distretti in cui prende 1X o 1XX voti. Ma questo significa che il suo avversario, Paperino, in quel 30% di distretti prenderà 8XX o 9XX voti e quindi Paperino avrà almeno il 30% di distretti con la prima cifra pari a 8 o a 9. Ma in una distribuzione di Benford le cifre 8 e 9, insieme, dovrebbero coprire neanche il 10% dei casi. Ne segue che se il candidato Topolino segue la legge in discussione, il candidato Paperino NON può seguire la stessa legge². È quindi impossibile, soprattutto in elezioni fortemente polarizzate come quelle americane, che entrambi i candidati in lizza seguano precisamente la legge di Benford.

Ma non è che queste sono solo giustificazioni ex-post da parte di faziosi sostenitori di Biden? No, la questione è discussa in riviste scientifiche da diversi anni. Ad esempio nel 2011, e quindi in epoca non sospetta, un articolo pubblicato sulla rivista Political Analysis analizza la possibilità di utilizzare la legge di Benford per rilevare frodi in processi elettorali; l’abstract recita:

It is not simply that the Law occasionally judges a fraudulent election fair or a fair election fraudulent. Its “success rate” either way is essentially equivalent to a toss of a coin, thereby rendering it problematical at best as a forensic tool and wholly misleading at worst.

Altri studi sono stati effettuati negli anni per verificare se applicare le previsioni della legge di Benford alla seconda cifra significativa, e non quindi alla prima, sia invece un metodo statisticamente affidabile per rilevare frodi elettorali. La seconda cifra non soffre infatti dei limiti visti precedentemente ma i risultati sono ancora contrastanti e gli esperti non sembrano concordare su una sua effettiva applicabilità.

Insomma, sembra proprio che sia stata un’occasione persa da parte di qualcuno che poteva evitare di leggere faziosamente leggi e risultati matematici che sono invece, per loro natura, neutri ed apolitici. Non è stata la prima e non sarà certamente l’ultima volta. Ma, comunque, ogni volta è un’occasione guadagnata per chi abbia voglia di riflettere e imparare qualcosa di nuovo e interessante.

Gabriele Carelli

ULTERIORI FONTI

Jen Golbeck, Benford’s Law Does Not Prove Fraud in the 2020 US Presidential Election, pubblicato su Medium il 10 novembre 2020.
Tim Brock, Benford’s law and elections – part 1, pubblicato il 28 novembre 2014 su Data to Display.
Breaking Benford, podcast di Radiolab, pubblicato il 13 novembre 2020, da cui è tratta l’immagine di copertina.
Mentre stavamo per andare online abbiamo notato un articolo analogo di Maurizio Codogno su Il Post che crediamo meriti di essere letto Non usate a sproposito la legge di Benford

NOTE

1 Votanti “registrati”, per la precisione e non votanti “potenziali”. Ma questo non cambia il senso al discorso.

2 Ad essere pignoli dovremmo considerare anche il caso in cui in molti distretti tutti e 1000 i voti vadano a Topolino. Ma questa non è ovviamente una situazione realistica, per far tornare i conti questo plebiscito dovrebbe accadere circa nel 20% dei distretti. Sicuramente è un’ipotesi da escludere.