Maurizio Codogno, meglio noto in rete come .mau., racconta come lui vede la matematica, con la scusa di non doverla insegnare né crearne di nuova. Oggi parla dei progressi delle intelligenze artificiali nel risolvere i problemi matematici.
D’accordo, io sono un matematico non praticante e quindi non sono direttamente toccato dalla cosa… e comunque essendo un boomer non sono così lontano dalla pensione. Però se fossi un Vero Matematico comincerei a preoccuparmi degli LLM applicati alla matematica: non a brevissimo termine, ma nel medio magari sì.
Cosa è successo? Lo potete leggere per esempio qui su MaddMaths!, o se vi piacciono i comunicati stampa direttamente da Google. Anche quest’anno, come l’anno scorso, alcuni modelli linguistici hanno partecipato virtualmente alle Olimpiadi della matematica (IMO, International Mathematical Olympiad): l’anno scorso una versione personalizzata di Google DeepMind’s ampliato con AlphaProof e AlphaGeometry2 aveva vinto una medaglia d’argento, quest’anno con la nuova versione Gemini Deep Think è arrivata una medaglia d’oro. Non possiamo nemmeno dire che il materiale di addestramento conteneva il testo dei problemi, perché ovviamente era stato secretato fino all’inizio della gara. Il risultato è stato confermato dal presidente delle IMO, che ha definito “sorprendenti” le risposte date e aggiunto che i valutatori le hanno trovate chiare, precise e perlopiù facili da seguire. D’accordo, mai fidarsi di quanto affermi un matematico ancorché formalmente corretto, ma i risultati parlano da soli. O no? Io credo che questo risultato sia importante, ma per motivi del tutto diversi da quelli che avete letto in giro.
La prima cosa da osservare è che mentre nel 2024 gli sviluppatori Google avevano dovuto tradurre i problemi IMO in un linguaggio simbolico comprensibile a DeepMind, quest’anno a Deep Think è stato dato direttamente il testo dei problemi. Detto in altre parole, il software ha “imparato a leggere la matematica”, o se preferite a convertire un enunciato matematico in una forma a lui comprensibile. Posso immaginare che questo risultato sia arrivato al costo di una perdita di generalità del modello, che già comunque non era un LLM “puro” dato che usava AlphaProof e AlphaGeometry2; in pratica gli si dice “guarda che hai davanti a te dei problemi di matematica e non delle ricette di cucina”, il che è un grande aiuto. Ma del resto io continuo ad essere dubbioso che un approccio solo LLM permetterà di arrivare al sacro Graal dell’AGI (Artificial General Intelligence). Ah, do per scontato che voi sappiate che gli LLM sono Large Language Models, che generano una parola (ok, tecnicamente un token che può essere anche meno di una parola oppure più parole insieme) per volta dopo essere stati addestrati con un grandissimo corpus di frasi. Molti, tra cui il sottoscritto, dicono che sono fondamentalmente degli autocompletatori sotto steroidi. Ciò detto, che un LLM ancorché aumentato abbia ottenuto la medaglia d’oro all’IMO è sicuramente un gran bel risultato.
Ma vediamo ora il rovescio della medaglia :-). Se siete abituati alle competizioni sportive, dove c’è una medaglia d’oro, una d’argento e una di bronzo siete sulla strada sbagliata. All’IMO, e in genere nelle competizioni matematiche, la medaglia d’oro si dà a circa un decimo dei partecipanti. Non è insomma il premio al migliore di tutti, ma un riconoscimento della bravura superiore di alcuni partecipanti, E in effetti ci sono stati cinque studenti che quest’anno hanno risolto tutti e sei i problemi nelle quattro ore e mezzo assegnate. Ma soprattutto i problemi sono problemi, non ricerca matematica. Ci sono molte somiglianze, naturalmente, ma la differenza fondamentale è che qualcuno ha preparato e risolto i problemi assegnati. (Probabilmente la cosa è andata alla rovescia: prima si è trovato, magari facendo dell’altro, il risultato e poi si è costruito il problema corrispondente). Io non mi sono mai applicato alla risoluzione dei problemi perché sono fondamentalmente pigro, e del resto quando ero ragazzo manco sapevo che esistevano le Olimpiadi della matematica (ammesso che ci fossero già). Però so che ci sono tecniche standard che si applicano a questi problemi, e le squadre di ragazzi che hanno passato le prime selezioni e sono arrivate in finale vengono appunto allenate per risolvere esplicitamente questo tipo di problemi. Ciò significa che è vero che nel corpus di addestramento non ci sono ovviamente i problemi dati nella competizione; ma comunque ci sono problemi con tecniche simili, e quindi il sistema può trovare la strada verso la soluzione, proprio come fa uno studente quando risolve i problemi alla fine del capitolo di un libro di testo a livello universitario. Abbiamo insomma la controprova che effettivamente i problemi dell’IMO seguono tecniche standard, e che DeepThink è un bravo studente che si è applicato, anche se magari non ha ben capito che cosa sta dietro questi esercizi.
In definitiva credo che il commento più corretto sia apprezzare il grande miglioramento di questi sistemi, ma tenere comunque presente che avranno ancora molta strada da fare. Voi che ne pensate?
Mi prendo una pausa ferragostana, da buon italiano: ci si rilegge il primo settembre!
Guarda la pagina di questa rubrica

















https://www.technologyreview.com/2025/02/25/1111207/a-nobel-laureate-on-the-economics-of-artificial-intelligence/
bell’articolo. Volevo segnalare che la versione di Gemini con Deep Think del 2025 non usava tool esterni come AlphaProof e AlphaGeometry2, come viene riportato anche nella dichiarazione al link riportato: “This year, our advanced Gemini model operated end-to-end in natural language, producing rigorous mathematical proofs directly from the official problem descriptions – all within the 4.5-hour competition time limit.”
Sicuramente la versione 2025 partiva dal linguaggio naturale, però non sono così certo che nell’end-to-end non ci fosse internamente una transizione a una codifica. Il fatto che non specifichi che non ci sia mi puzza un po’…