Pin It
 Siamo abituati a pensare che per rendere un’IA più intelligente serva renderla “più grande”. Più neuroni, più strati, più calcoli. Ma c’è un problema: quando costruisci un grattacielo troppo alto senza rinforzare le fondamenta, crolla tutto. Nel mondo delle reti neurali, questo crollo si chiama “instabilità numerica”. La soluzione? Un po’ di sana geometria e una visita negli archivi di matematica del secolo scorso. Ce lo racconta Mario Santoro, ricercatore dell’IAC-Cnr. 

Se avete mai provato a capire come funziona un Large Language Model (LLM) sotto il cofano, probabilmente vi siete imbattuti nel concetto di Residual Connection (connessione residua). È l’equivalente ingegneristico di dire: “Ehi, se questo strato della rete non ha nulla di intelligente da dire, lascia passare l’informazione così com’è”.
Matematicamente è una banalità disarmante:
\(y\) =\(x\) +\(f(x)\)
dove \(x\) è l’input, \(f(x)\) è quello che fa la rete, e \(y\) è l’output. La \(x\) sommata al risultato è l’Identity Mapping. È come una corsia di emergenza in autostrada: garantisce che il segnale possa scorrere dall’inizio alla fine della rete senza perdersi né esplodere. Grazie a questo trucco, inventato nel 2016 con le ResNet, possiamo addestrare reti profondissime. Tutto risolto? Nemmeno per sogno.

Il miraggio delle Hyper-Connections

I ricercatori, che non si accontentano mai, hanno pensato: “Perché avere una sola corsia di emergenza? Perché non costruire un’autostrada a 4, 8, 16 corsie interconnesse?”. L’intento non è banale: moltiplicare le vie di fuga serve a diversificare i percorsi del ragionamento, permettendo al modello di catturare sfumature diverse dello stesso dato simultaneamente, proprio come un cervello che elabora suono e immagini in parallelo. Hanno chiamato questa idea Hyper-Connections (HC). L’idea è espandere la “larghezza” del segnale residuo (\(x\) diventa una matrice più grande) e permettere ai vari flussi di mescolarsi tra loro. Sulla carta, è geniale: aumenti la capacità della rete di trasportare informazioni senza aumentare troppo il costo di calcolo.

Nella pratica? È un disastro. Immaginate un’autostrada in cui le macchine possono saltare da una corsia all’altra liberamente, ma a ogni cambio di corsia la loro velocità viene moltiplicata per un numero casuale. Dopo 100 chilometri (o 100 strati), avrete macchine ferme o che viaggiano velocissime. In un paper pubblicato a fine 2025 (https://arxiv.org/pdf/2512.24880) DeepSeek ci mostra che nelle Hyper-Connections classiche si perde la proprietà dell’Identity Mapping. Il segnale, attraversando strati e strati di matrici di mescolamento non controllate, tende a esplodere (exploding gradient) o a svanire (vanishing gradient). Risultato: l’addestramento fallisce.

La rivincita del 1969: arrivano i vigili urbani (mHC)

Qui entra in gioco l’eleganza teorica. I ricercatori di DeepSeek non hanno inventato un nuovo algoritmo, ma hanno rispolverato una vecchia gloria matematica. Hanno utilizzato l’algoritmo di Sinkhorn-Knopp, introdotto nel 1967 e formalizzato proprio nel 1969. 

È un paradosso affascinante: per salvare le architetture hardware del 2026, è servito un teorema di quasi sessant’anni fa. L’idea delle Manifold-Constrained Hyper-Connections (mHC nel seguito, potremmo tradurre con “iper-connessioni vincolate a delle varietà”) è semplice: se le matrici di mescolamento fanno quello che vogliono, bisogna costringerle a comportarsi bene proiettandole su una varietà specifica (in sendo matematico, stiamo parlando di superfici multidimensionali in pratica).

Le matrici alla fine devono diventare doppiamente stocastiche. Cosa significa? Immaginate un sistema di scambio autostradale a tenuta stagna: nessuna corsia è chiusa né inverte il senso di marcia (numeri positivi). Ossia tutto il traffico che esce da una corsia deve essere interamente ridistribuito (somma riga = 1), e tutto il traffico che arriva in una nuova corsia deve provenire esattamente dalle precedenti (somma colonna = 1).

DeepSeek utilizza l’antico algoritmo di Sinkhorn-Knopp per “costringere” le matrici verso un equilibrio perfetto. È come avere un vigile urbano che, forte di un regolamento del 1969, controlla che nemmeno una singola auto scompaia o si materializzi dal nulla durante i cambi di corsia. Il volume totale del traffico resta invariato, non si creano ingorghi (esplosione) e non si svuotano le strade (svanimento).

Non solo teoria: il problema della memoria

C’è un ultimo ostacolo. Avere autostrade più larghe significa trasferire molti più dati dalla memoria ai processori (il temuto “Memory Wall”). Anche qui, l’articolo non si limita alla teoria. Hanno dovuto riscrivere i kernel (i pezzi di codice che parlano direttamente con la GPU) usando linguaggi specializzati, come TileLang, per fondere le operazioni. Senza questa ottimizzazione ingegneristica, la bellissima matematica delle mHC sarebbe stata troppo lenta per essere davvero utilizzata.

Il lato oscuro della medaglia: “Trust me, bro”
Tuttavia, se la parte matematica ci fa brillare gli occhi, quella scientifica lascia un retrogusto amaro. Bisogna essere onesti: leggere il paper di DeepSeek dà la sensazione di guardare un prestigiatore che non vuole svelare il trucco fino in fondo. Manca infatti il codice sorgente. Mancano i dettagli sui seed, sugli iperparametri e sulla varianza tra i vari tentativi. Ci viene chiesto di fidarci della loro descrizione. In un campo che soffre di una crisi di riproducibilità, presentare una soluzione così elegante ma empiricamente opaca (“Trust me, bro”) è un passo falso che non possiamo ignorare.

In conclusione
Le mHC di DeepSeek ci insegnano una lezione classica: la potenza è nulla senza controllo. Espandere le connessioni dà al modello più “spazio”, ma è la costrizione geometrica di un teorema di 50 anni fa a rendere questo spazio abitabile. Abbiamo capito come funziona la matematica del ’69 e come scala sull’hardware moderno; ora, per il bene della scienza, vorremmo anche vedere gli ingredienti della ricetta segreta!!!

Mario Santoro

Editing di Monica Mattei

Monica Mattei

Pin It
This website uses the awesome plugin.