Dal 1959, ogni anno le Olimpiadi Internazionali della Matematica (IMO) vedono cimentarsi ragazzi di età pre-universitaria che tentano di risolvere sei problemi di alti livello di difficoltà nei campi di algebra, combinatoria, geometria e teoria dei numeri. Molti futuri vincitori di Medaglia Fields (il più alto riconoscimento per i matematici) hanno partecipato a questa competizione rappresentando il proprio paese. Negli ultimi anni, l’IMO è anche diventata una grande sfida riconosciuta nel campo del machine learning, rappresentando un banco di prova ambizioso per valutare le capacità di ragionamento matematico avanzato dei sistemi di IA. Vediamo come è andata quest’anno.
L’anno scorso, l’accoppiata di DeepMind – azienda britannica del gruppo Alphabet, casa madre di Google, che si occupa di ricerca e sviluppo in materia di intelligenza artificiale – formata dai sistemi AlphaProof e AlphaGeometry 2, ha affrontato i sei problemi proposti dalle Olimpiadi Internazionali della Matematica risolvendone 4 e raggiungendo per la prima volta un risultato paragonabile a quello di un (umano) medagliato d’argento, con 28 punti su 42.
Quest’anno, una versione avanzata di Gemini Deep Think – sempre da DeepMind – ha risolto perfettamente cinque dei sei problemi dell’IMO 2025, totalizzando 35 punti e raggiungendo una prestazione da medaglia d’oro. “Possiamo confermare che Google DeepMind ha raggiunto l’ambito traguardo, ottenendo 35 punti su 42 possibili – punteggio da medaglia d’oro. Le loro soluzioni sono state sorprendenti sotto molti aspetti. I correttori IMO le hanno trovate chiare, precise e, per la maggior parte, facili da seguire” ha commentato Gregor Dolinar, Presidente IMO.
Altro dato significativo, mentre l’anno scorso AlphaGeometry e AlphaProof avevano richiesto che esperti traducessero i problemi dal linguaggio naturale in linguaggi specialistici (come Lean), e poi viceversa per le dimostrazioni, quest’anno, il modello avanzato Gemini ha operato dalll’inizio alla fine in linguaggio naturale, producendo dimostrazioni rigorose direttamente a partire dai testi ufficiali dei problemi – tutto entro il limite di 4 ore e mezza (l’anno scorso ci erano voluti fino a tre giorni). Gli studenti umani hanno a disposizione due sessioni della durata di 4 ore e mezza ognuna.
Il risultato di quest’anno è stato raggiunto utilizzando una versione avanzata di Gemini Deep Think – che possiede una modalità di ragionamento potenziata per problemi complessi che integra alcune più recenti tecniche di ricerca di Google DeepMind, tra cui il “pensiero parallelo”. Questo approccio consente al modello di esplorare simultaneamente più soluzioni potenziali e combinarle prima di fornire una risposta finale, invece di seguire un’unica catena di pensiero lineare. Per massimizzare le capacità di ragionamento di Deep Think, questo sistema è stato addestrato utilizzando nuove tecniche di apprendimento per rinforzo, in grado di sfruttare dati su ragionamento a più passaggi, problem-solving e dimostrazioni. Inoltre, a a Gemini è stato fornito un corpus curato di soluzioni matematiche di alta qualità e istruzioni con suggerimenti su come affrontare i problemi IMO. Una versione di questo modello Deep Think sarà messa a disposizione di un gruppo selezionato di tester, di cui fanno parte anche matematici, prima del rilascio per gli abbonati a Google AI Ultra.















