Un gruppo di ricercatori della Apple ha mostrato che l’IA generativa può incappare in alcuni gravi errori logici nei suoi ragionamenti, anche quando si tratta di numeri e matematica. L’IA, dunque, potrebbe non essere così “intelligente” come si ritiene, dato che nei test non è riuscita a ottenere un risultato eccellente nella risoluzione di problemi di matematica di livello da scuola elementare.
Lo studio postato su arXiv riguarda il ragionamento matematico di modelli di linguaggio su larga scala (LLM): gli scienziati hanno iniziato utilizzando GSM8K (un dataset di problemi matematici di scuola elementare di alta qualità e linguisticamente diversificato) con il suo set standardizzato di 8.000 problemi matematici di livello scolastico. Si tratta di un benchmark comune per testare gli LLM: i ricercatori hanno poi modificato lievemente la formulazione dei problemi (senza però alterarne la logica) creando così un nuovo test chiamato GSM-Symbolic. Nel primo set di test è stata registrata una riduzione delle prestazioni tra lo 0,3% e il 9,2%. Il secondo set, che includeva una frase priva di rilevanza per la soluzione all’interno di alcuni problemi, ha mostrato “crolli catastrofici delle prestazioni” tra il 17,5% e un enorme 65,7%.
Questi risultati non hanno sorpreso proprio tutti: sono in tanti infatti ad aver notato che l’IA può fare fatica anche con compiti semplici legati ai numeri. Il motivo è che l’IA non ‘risolve’ nel vero senso della parola i problemi matematici ma si limita a utilizzare una semplice “corrispondenza di pattern” per convertire affermazioni in operazioni, senza comprendere davvero il significato di quello che sta facendo. In definitiva, l’IA dà solo l’illusione di “ragionare”, mentre in realtà si basa solo sull’accumulo di dati che vengono poi processarti. L’IA, in base all’analisi degli scienziati, avrebbe difficoltà a risolvere problemi matematici semplici perché le parole risultano troppo confuse o non seguono uno schema esatto.