Ogni anno, i paesi partecipanti alle Olimpiadi Internazionali di Matematica si presentano con un opuscolo contenente i loro problemi migliori e più originali. Questi opuscoli vengono condivisi tra le delegazioni, per poi scomparire. Nessuno li aveva mai raccolti, ripuliti e resi disponibili in modo sistematico. Ora la situazione è cambiata.
I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, della King Abdullah University of Science and Technology (KAUST) e di HUMAIN hanno creato MathNet, il più grande dataset di alta qualità di problemi matematici mai creato (e che è pronto, ovviamente, ad ampliarsi). Con i suoi oltre 30.000 problemi (e soluzioni) creati da esperti provenienti da 47 paesi, 17 lingue e 143 competizioni, è cinque volte più grande del secondo dataset più grande del suo genere. Il lavoro sarà presentato alla International Conference on Learning Representations (ICLR 2026) in Brasile alla fine di questo mese.
Ciò che rende MathNet è che i precedenti dataset di questo tipo provenivano quasi esclusivamente da competizioni olimpiche svolte negli Stati Uniti e in Cina. MathNet abbraccia invece decine di paesi in sei continenti, copre 17 lingue, include problemi e soluzioni sia testuali che basati su immagini e abbraccia quattro decenni di matematica agonistica. L’obiettivo è quello di catturare l’intera gamma di prospettive matematiche e tradizioni di risoluzione dei problemi esistenti nella comunità matematica globale, non solo quelle più visibili.
La creazione di MathNet ha richiesto il reperimento di 1.595 volumi PDF per un totale di oltre 25.000 pagine, tra documenti digitali e scansioni di decenni fa in più di una dozzina di lingue. Una parte significativa di quell’archivio proviene da una fonte inaspettata: Navid Safaei, figura di spicco della comunità IMO (Olimpiadi Internazionali di Matematica) e coautore, che dal 2006 raccoglieva e scansionava a mano questi opuscoli. Il suo archivio personale ha costituito gran parte della struttura portante del dataset.
Mentre la maggior parte dei dataset matematici esistenti attinge problemi da forum online come Art of Problem Solving (AoPS), MathNet si basa esclusivamente sugli opuscoli ufficiali delle competizioni nazionali. Le soluzioni contenute in questi opuscoli sono redatte da esperti e sottoposte a revisione paritaria, e spesso si estendono su più pagine, con gli autori che illustrano diversi approcci allo stesso problema. Questo, tra l’altro, permette ai modelli di intelligenza artificiale di ricevere un segnale molto più ricco per l’apprendimento del ragionamento matematico, rispetto alle soluzioni più brevi e informali tipiche dei dataset provenienti dalla comunità.
La diversità di MathNet è stata ricercata anche per affrontare una limitazione profonda nel modo in cui i modelli di intelligenza artificiale apprendono la matematica. Quando i dati di addestramento sono sbilanciati verso problemi in inglese e cinese, infatti, i modelli assimilano una porzione limitata della cultura matematica. Un problema di combinatoria in rumeno o un problema di teoria dei numeri in brasiliano potrebbero affrontare lo stesso concetto di base da un’angolazione completamente diversa. Secondo i ricercatori, l’esposizione a tale gamma di problemi migliorerà le capacità di pensiero matematico sia degli esseri umani che dei sistemi di intelligenza artificiale.











