Pin It

Qualche settimana fa alcuni matematici hanno pubblicato nel sito di preprint ArXiv uno studio comparativo tra vari modelli predittivi per i risultati della Coppa del Mondo di Calcio. Quale funziona meglio? Ci azzeccheranno questa volta? Abbiamo chiesto ad Aniello Buonocore, professore di probabilita e statistica matematica presso l’Università Federico II di Napoli, di commentare per noi questo articolo (N.B.: L’articolo e il commento sono stati scritti qualche giorno fa, senza conoscere i risultati finali della fase a gironi. Il futuro è difficile da predire, specie quando è già passato…).

Quante probabilità ha una determinata squadra di vincere il campionato mondiale Russia 2018? Per tentare di rispondere matematicamente a questa domanda,  gli scienziati belgi e tedeschi Andreas Groll, Christophe Ley, Gunther Shauberger e Hans Van Eetvelde hanno scritto l’articolo “Prediction of the FIFA World Cup 2018 – A random forest approach with an emphasis on estimated team ability parameters” (clicca sul titolo per leggerlo). Si tratta di un lavoro enorme, per la quantità di dati reperiti, per lo svolgimento delle relative elaborazioni e per quanto riguarda la quantità dei metodi statistici presi in considerazione.  In più si deve sottolineare che gli autori forniscono, rispettivamente e sempre per ciascuna delle 32 squadre, la probabilità: di passare la fase a gironi, di superare gli ottavi di finale e i quarti di finali e di vincere le semifinale. Come hanno fatto? Gli autori hanno fatto disputare l’intero campionato (48 partite per la fase a gironi, 8 partite per gli ottavi di finale, 4 partite per i quarti di finale, 2 semifinali e la finalissima per un totale di 65 partite) 100.000 (CENTOMILA) volte!

Calma, non si tratta delle partite reali con Ronaldo, Messi, Neymar e gli altri campioni delle varie nazionali, ma di loro simulazioni effettuate con l’aiuto di un computer. Per ottenere il risultato di ciascuna partita basta generare il valore di due variabili (numeri) di Poisson che forniscono il numero dei goal fatti dalla prima e dalla seconda squadra.1 E qui si capisce la difficoltà intrinseca e la necessità di avere una ricca matrice (strutturata) dei dati: ogni numero di Poisson ha il proprio tasso (coincide con la media) e quindi bisogna stimarlo. Ad esempio, solo per la fase a gironi ci sono 6 partite per ognuno degli 8 gironi e quindi un totale di 48 partite: sono necessari 96 tassi di rispettivi numeri di Poisson.

Il risultato finale complessivo si può leggere nella Tabella 8: la probabilità di alzare la coppa da parte della Spagna e della Germania è molto ravvicinata (17,8% e 17,1%, rispettivamente); esse sono seguite da un terzetto, un po’ distanziato, formato da Brasile, Francia e Belgio (12,3%, 11,2% e 10,4%). Quindi non si evince una squadra chiaramente favorita ma il quintetto complessivamente raggiunge il 68,8% di probabilità. Gli autori commentano che questa evidenza è in accordo con le probabilità poste da ODDSET (agenzia statale tedesca per le scommesse, nel seguito indicata come allibratore) con la differenza che, a parere di quest’ultima, la Spagna fa parte del terzetto che insegue la coppia delle favorite Germania e Brasile le quali hanno uguale probabilità.2

Ma l’analisi accurata della Tabella 8 fornisce ulteriori motivi di indagine. Ad esempio, sebbene la Spagna e la Germania hanno probabilità di superare la fase a gironi abbastanza vicine tra loro, la Germania ha solo il 58% di probabilità di vincere il suo ottavo di finale contro il 73,1% della Spagna. Questa netta differenza è dovuta alla composizione dei gironi e dal meccanismo degli accoppiamenti degli ottavi di finale: la Germania dovrà affrontare una tra Brasile, Svizzera, Serbia, e Costarica mentre le possibili avversarie della Spagna sono l’Uruguay, la Russia, l’Arabia Saudita e l’Egitto. Quindi, a livello di pronostico la Germania avrà un ottavo di finale abbastanza più difficile di quello della Spagna.

La Figura 4 mostra complessivamente l’influenza del calendario delle partite sulle probabilità di vittoria finale relativamente alle squadre del quintetto delle favorite. Per ognuna di esse è riportata la probabilità di vincere il mondiale 2018 dai cinque possibili punti di partenza: all’inizio della fase a gironi (ovvero, il risultato riportato nella Tabella 8), prima dell’ottavo di finale, prima del quarto di finale, prima della semifinale, prima della finale.3 E qui la cosa diventa intrigante: la linea della Germania si colloca sopra quella della Spagna a partire dal quarto di finale; in altri termini se la Germania supera lo scoglio durissimo del suo ottavo di finale allora diventa la favorita numero uno per la corsa al titolo mondiale.

Vi è un’ulteriore indicazione per la Germania “über alles” che, comunque, anche a parere degli autori riveste minore importanza:4 il più probabile svolgimento del campionato. Esso, per quanto riguarda la fase a gironi, si ottiene facilmente con l’aiuto delle centomila simulazioni. La Tabella 9 riporta il risultato che si ottiene tenendo conto delle regole fissate per stabilire l’ordinamento in caso di parità fino alla seconda posizione.

Si noti che per procedere alla fase successiva è necessario eliminare tutte le simulazioni che prevedono almeno una situazione difforme da quella della Tabella 9: ne restano poche su cui basare la stima della probabilità di passare gli ottavi di finale. Il problema si aggrava ancora di più relativamente ai quarti e più oltre. Allora gli autori procedono per via teorica utilizzando la distribuzione (di Skellam) della differenza di due numeri di Poisson. In questo contesto è necessario un accorgimento per la ripartizione tra le due contendenti della probabilità del pareggio alla fine dei tempi regolari e anche alla fine dei tempi supplementari. La figura 5 riporta il risultato definitivo di queste elaborazioni.

Nell’articolo si analizza la matrice dei dati che riguardano le edizioni 2002, 2006, 2010, 2014 e 2018 del campionato mondiale di calcio. I dati delle edizioni fino al 2014 sono usati per mettere a punto il metodo e i dati dell’edizione corrente per la stima delle quantità desiderate. Le righe rappresentano le squadre partecipanti; le colonne sono 16 e ognuna delle quali (prodotto interno lordo della nazione, probabilità posta dall’allibratore, classifica FIFA, nazione ospitante, continente, confederazione calcistica, numero massimo di compagni di club presenti nella rosa dei 23 giocatori, secondo numero massimo di compagni di club presenti nella rosa dei 23 giocatori,5 età media dei giocatori nella rosa dei 23, numero dei giocatori nella rosa dei 23 che hanno giocato la semifinale della immediatamente precedente Champions League, numero dei giocatori nella rosa dei 23 che hanno giocato la semifinale della immediatamente precedente Europa League, numero dei giocatori nella rosa dei 23 che, nella stagione precedente il mondiale, hanno giocato all’estero, l’età del primo allenatore, la durata dell’incarico del primo allenatore, primo allenatore “non straniero”) funge da predittore per il numero dei goal. Come si vede nell’articolo,  4 predittori sono qualitativi e devono essere trattati separatamente per la prima e per la seconda squadra.

Clicca qui per maggiori informazioni

 Infine, vediamo in un certo dettaglio l’analisi per determinare il metodo per ottenere i tassi dei numeri di Poisson rappresentanti i goal di ciascuna partita. Innanzitutto, bisogna dire che sono prese in considerazione tre tecniche statistiche: foreste casuali, regressione e classificazione (Ranking methods)Le foreste casuali rappresentano una generalizzazione dell’algoritmo CARTs (Classification And Regression Trees) con il quale si cerca di partizionare (casualmente) l’insieme dei predittori in maniera tale che in ciascuna classe della partizione c’è una buona omogeneità dei membri rispetto alla variabile risposta e nello stesso tempo c’è una notevole disomogeneità tra le classi. La maniera più usuale per rappresentare il risultato di un’analisi eseguita con CARTs è il dendogramma: un insieme di diagrammi scatola con baffi in ognuno dei quali si dovrebbe osservare una piccola differenza interquartile mentre tra le classi c’è una sostanziale differenza rispetto alla mediana. Ovviamente, nel caso in esame l’omogeneità tra i 16 (più ) predittori è ricercata rispetto al numero dei goal di una squadra in una partita del campionato mondiale e un esempio di dendogramma è riportato nella Figura 1 dell’articolo. Una foresta casuale consiste nell’aggregazione di un gran numero di alberi (che dovrebbero essere quanto più possibile indipendenti gli uni dagli altri) nel tentativo di ridurre la variabilità del risultato nell’algoritmo CARTs. Dal momento che non è semplice visualizzare e interpretare il significato delle foreste casuali il miglior modo per capire il ruolo di ciascun predittore è quello di misurare la sua importanza e ciò può essere fatto utilizzando un metodo di permutazione dei cosiddetti “dati fuori sacco”. Pertanto il risultato delle foreste casuali è visualizzato mediante un grafico a barre verticali avente per modalità i predittori e per altezza l’importanza di ciascuno di essi. Nell’articolo, la Figura 2 riporta l’importanza dei sedici predittori relativamente ai dati delle edizioni dal 2002 al 2014; in essa si può notare che i predittori più importanti sono due: la classifica FIFA e la probabilità posta dall’allibratore. Dopo aver ottenuto l’importanza dei predittori, si determina una stima puntuale del tasso del numero di Poisson rappresentante i goal per ciascuna squadra in ciascuna partita adattando alberi alla matrice dei dati di prova (2002-2014) e, successivamente, prendendo la media campionaria dei valori predetti da tale adattamento.6

La regressione è una tecnica più tradizionale; nel caso in esame la variabile dipendente ( ), i parametri ( e ) e i dati ( e ) sono indicizzati da (prima squadra), da (seconda squadra) e da (edizione del campionato). Inoltre i predittori sono raggruppati in tre gruppi: quelli continui per i quali conta la differenza dei valori ( ), i qualitativi relativi alla prima squadra nominata ( ) e i corrispondenti relativi alla seconda squadra nominata ( ):

In più gli autori riferiscono di aver utilizzato un metodo di regolarizzazione (Lasso convenzionale) per ridurre il rischio di possibili sovrastime. Per quanto riguarda la terza tecnica, qui basta dire che con essa si vuole ottenere un ordinamento delle squadre in base allo stato di forma attuale. Ciò è fatto prendendo in considerazione i risultati di partite disputate in un periodo (valutato in giorni) e di massimare la verosimiglianza pesata rispetto a due caratteristiche: il tempo trascorso e l’importanza della partita .7 D’altra parte la verosimiglianza si ottiene ponendo un modello e quello di Poisson indipendente per l’ordinamento è abbastanza simile a quello visto in precedenza per la regressione:

Qui, i parametri da stimare sono i valori indicanti il numero d’ordine dello stato di forma attuale di ciascuna squadra.

Ma la cosa non finisce qua. Gli autori formano quattro matrici di dati ognuna contenente i valori di 3 precedenti edizioni e con ciascuna tecnica predicono i risultati dell’edizione esclusa. I risultati sono confrontati rispetto a 3 diverse misure di performance: la verosimiglianza multinomiale, il tasso di corretta classificazione e il punteggio relativo all’ordinamento delle probabilità. A questo punto, dal momento che i risultati di confronto non manifestano una sostanziale differenza di una di esse rispetto alle altre due gli autori decidono di effettuare ulteriori confronti effettuando opportune combinazioni di esse. In particolare vengono confrontati le foreste casuali e la variante Lasso della regressione tradizionale entrambe con l’aggiunta del predittore stato di forma attuale. E da qui scaturisce il titolo dell’articolo: foreste casuali e stima dello stato di forma attuale.

Mamma mia che fatica: e poi dicono che uno parteggia per il Messico (tricolore per tricolore).

Un’ultima mia curiosità. In maniera molto interessante il grafico a barre verticali della foresta casuale con il predittore aggiuntivo “stato di forma attuale” delle squadre ha la massima altezza in corrispondenza proprio di quest’ultimo. Allora, mi chiedo: cosa sarebbe cambiato se il predittore “stato di forma attuale”, invece di essere aggiunto, avesse sostituito il predittore “probabilità poste dall’allibratore” nella foresta analizzata inizialmente?

Aniello Buonocore

Note

1 In più per le partite dopo la fase a gironi che terminano in parità bisogna prolungare la simulazione con il risultato dei tempi supplementari e gli eventuali calci di rigori.

2 A mio parere c’è un’altra differenza: la probabilità complessiva stimata da parte dell’allibratore del quintetto delle favorite vale 61,9% ossia 7 punti percentuali in meno di quella stimata dagli autori. Pur non essendo competente in materia di scommesse sono portato a ritenere che ciò dipenda soprattutto da una forma di cautela contro la bancarotta: il sovrastimare la probabilità di una squadra non appartenente al quintetto delle favorite conduce alla sottostima della relativa quota e quindi ad un minore esborso.

3 È del tutto ovvio che queste probabilità (condizionate) crescono con il passaggio al turno successivo.

4 Gli autori stimano che la probabilità di realizzazione dello svolgimento più probabile del campionato valga !

5 Ad esempio, per il campionato 2014 la rosa della Spagna comprendeva 7 giocatori del Real Madrid (numero massimo) e 4 giocatori dell’Atlético Madrid (secondo numero massimo).

6 Nell’articolo B=5000.

7 Nell’articolo è fornita un’espressione per e rappresenta il numero dei giorni intercorsi tra la partita e l’inizio del mondiale.

Pin It
this site uses the awesome footnotes Plugin