Ma veramente il nuovo chatbot sviluppato dalla società cinese DeepSeek è meglio di tutti i suoi concorrenti, a fronte di un costo e con tempi di addestramento nettamente inferiori? Forse è presto per rispondere a questa domanda, ma intanto Nicola Parolini si è divertito a fare loro qualche domanda di matematica, confrontando le sue risposte con quellei di ChatGPT. Vediamo come è andata.
Come tanti, nel corso degli ultimi mesi sono stato impressionato dalle straordinarie dimostrazioni di efficacia e, in molti casi, di affidabilità a cui strumenti come ChatGPT ci stanno abituando. Su MaddMaths! ci siamo già occupati delle capacità di questo tipo di strumenti nell’affrontare argomentazioni matematiche segnalando possibili criticità anche di fronte a semplici problemi algebrici e riflettendo sul potenziale didattico offerto da queste nuove tecnologie.
Da qualche giorno si sente molto parlare del nuovo chatbot sviluppato dalla società cinese DeepSeek, che sembra poter impensierire i giganti dell’AI (ChatGPT di OpenAI, Gemini di Google, Grok di xAI, Claude di Anthropic) grazie al fatto che sembrerebbe poter garantire risultati paragonabili (se non in alcuni casi migliori) a un costo di addestramento molto inferiore. Queste notizie sono basate sui risultati pubblicati dagli sviluppatori di DeepSeek, ed è giusto ricordare che la loro attendibilità dovrà essere confermata da analisi più approfondite. Tuttavia, quanto emerso finora ha già provocato un impatto notevole sul mercato, portando ad un crollo dei titoli di borsa legati ai grandi player dell’AI, che, va ricordato, negli ultimi mesi avevano ottenuto aumenti straordinariamente elevati delle loro quotazioni, grazie alle prospettive di sviluppo del settore. In questo thread di Twitter, Morgan Brown, vice-presidente di Dropbox, sintetizza in modo efficace come alcune scelte tecniche compiute da DeepSeek hanno permesso di ottenere questo sostanziale miglioramento di prestazioni, in particolare in termini di risorse di calcolo e di memoria necessarie all’addestramento.
Personalmente, dal lancio di ChatGPT, ho usato come semplice test per valutare le capacità argomentative di ChatGPT il seguente prompt “Dimostra che il prodotto tra due matrici simmetriche definite positive è una matrice simmetrica definita positiva”. Nonostante la proprietà che chiedo di dimostrare sia falsa, ancora oggi la versione gratuita ChatGPT 4o mini accessibile all’indirizzo https://chatgpt.com/ (senza necessità di accedere con le proprie credenziali) fornisce la seguente risposta evidentemente affetta da errori sia nel Passo 1 che nel Passo 2:
La versione di ChatGPT che si può utilizzare, sempre gratuitamente, accedendo al sito con le proprie credenziali, fornisce una risposta migliore, ma ancora non priva d’errori. Viene indentificata la necessità di una condizione da soddisfare (ovvero che le matrici A e B devono commutare) per poter garantire la simmetria del prodotto, ma la dimostrazione della definita positività è ancora affetta da un errore
Passiamo a vedere come si comporta su questo problema il chatbot DeepSeek, che interrogato con lo stesso prompt, risponde che quanto richiesto non può essere dimostrato, fornendo un contro-esempio corretto:
Tuttavia, anche DeepSeek commette un errore quando osserva che “Anche se C fosse simmetrica, non è garantito che sia definita positiva”, in quanto, in realtà, se A e B commutano il prodotto non è solo simmetrico ma anche definito positivo.
Naturalmente, a partire da questo esempio non è certo possibile arrivare a conclusioni generali su un confronto tra i diversi strumenti in termini di capacità argomentative in ambito matematico, tuttavia può essere importante evidenziare come la sfida che DeepSeek pone ai giganti dell’AI potrebbe non essere limitata al miglioramento dell’efficienza dell’addestramento (questione peraltro assai rilevante se si tiene conto delle previsioni sul costo energetico di tali tecnologie), ma potrebbe anche riguardare l’accuratezza dei risultati proposti. Per chi fosse interessato ad approfondire i progressi che gli strumenti di intelligenza artificiale generativa stanno compiendo e le prospettive nel loro utilizzo a supporto del lavoro dei matematici segnalo un recente contributo di Terence Tao.
Ho ottenuto solo allucinazioni (col solito tono assertivo) dalle versioni base sia di ChatGPT sia di DeepSeek proponendo un semplice esercizio, che però richiede una certa creatività, tratto dal testo di Bondy & Murty:
*trovare un grafo il cui unico automorfismo sia l’identità.*
In realtà, DeepSeek ha anche trovato in rete un esempio classico , il grafo di Frucht, ma non ne ha saputo produrre uno più piccolo.