“Chi sta guardando quell’immagine?” Una nuova teoria topologica per l’intelligenza artificiale

da Roberto Natalini | 14 Agosto 2020 | Ricerca

Mentre ogni giorno siamo circondati da annunci sui computer che pensano o, se ancora non pensano, sicuramente eseguono azioni che nel passato erano riservate agli umani, come riconoscere un volto o giocare a Go, molto meno si sa sulle basi matematiche su cui si fondano l’analisi dei dati e la cosiddetta Intelligenza Artificiale. In questo articolo Patrizio Frosini ci racconta come, con un gruppo tutto italiano di ricercatori, abbiano messo a punto una nuova teoria che apre la strada allo studio delle “macchine matematiche” pensate per risolvere problemi complessi grazie all’analisi dei dati.

“El ojo que ves no es ojo porque tú lo veas; es ojo porque te ve.”
Antonio Machado, Proverbios y cantares

[Articolo originariamente pubblicato il 29 settembre 2019]

C’è una parola onnipresente in ambito matematico, ed è “relazione”. Carl Friedrich Gauss diceva che la matematica si occupa solo dell’enumerazione e del confronto di relazioni. È naturale pensare che qualcosa di simile valga per l’intelligenza artificiale, ma come formalizzare questa idea? In un recente articolo pubblicato su Nature Machine Intelligence ^{[1 ]}M. G. Bergomi, P. Frosini, D. Giorgi, N. Quercioli, Towards a topological-geometrical theory of group equivariant non-expansive operators for data analysis and machine learning, Nature Machine Intelligence, vol. 1, n. 9, pages 423–433 (2 September 2019). (Articolo disponibile alla pagina https://rdcu.be/bP6HV ). abbiamo cercato di dare una risposta a questa domanda.

Di solito, in matematica ma non solo, non si assegna la stessa importanza a ogni tipo di relazione: si cercano nuove relazioni che siano anche “inaspettate e interessanti”. Ma cosa significa cercare qualcosa di inaspettato e interessante? E soprattutto: inaspettato e interessante per chi? Una possibile risposta è che le relazioni più rimarchevoli sono quelle che richiamano l’attenzione di soggetti che sono ritenuti particolarmente “competenti”. È dunque cruciale osservare questo principio, molto noto in fisica: la ricerca di risultati interessanti conduce all’individuazione di osservatori privilegiati, che godano di particolari proprietà di invarianza o simmetria.

Questo principio può sembrare di natura prettamente filosofica ma la centralità delle relazioni e degli agenti che sono capaci di rilevarle sta diventando essenziale nello sviluppo di nuovi modelli matematici per la scienza dei dati e l’intelligenza artificiale: nelle discipline che studiano il trattamento dell’informazione è ormai chiaro che servirsi degli osservatori giusti è una scelta fondamentale per ottenere le prestazioni che si desiderano.

Siamo convinti che il ruolo dei dati venga spesso eccessivamente enfatizzato. In realtà i dati di per sé interessano quasi sempre molto poco: quel che usualmente conta è piuttosto il comportamento degli agenti che esaminano ed elaborano le informazioni disponibili. Se avete una lesione sulla pelle e ne scattate una foto per inviarla al vostro dermatologo, è probabile che non siate interessati tanto alla bellezza dell’immagine, quanto all’opinione che il vostro medico esprimerà su di essa. Se invece la foto è destinata a una mostra di fotografia, gli osservatori ritenuti “interessanti” saranno di tipo del tutto diverso. Abbiamo dunque questo problema centrale: come possiamo trovare una buona approssimazione di un osservatore “interessante” al fine di emularne il giudizio sui dati?

Come spesso accade, una volta individuato il problema interviene l’apporto – sia teorico che applicativo – della matematica. Nel nostro articolo citato sopra proponiamo un modello che permette di trasformare l’approssimazione degli agenti che osservano ed elaborano i dati nello studio geometrico dello spazio di tutti i possibili agenti. Gli elementi fondamentali del modello sono macchine che trasformano le informazioni, chiamate ‘operatori’, che possono essere combinate in reti molto complesse. Studiare le proprietà di questi operatori ci permette di comprendere meglio il loro funzionamento e rendere quindi più efficienti i sistemi di elaborazione dei dati. Matematicamente questi agenti sono rappresentati nel modello come operatori equivarianti rispetto all’azione di opportuni gruppi di omeomorfismi.

Vediamo brevemente la struttura del nostro modello. Si parte dall’assunto che i dati vengano descritti da funzioni definite su di un insieme \(X\) di punti in ciascuno dei quali si possa effettuare una misura tramite strumenti opportuni. Per esempio, una TAC può essere vista come una funzione che, a ogni punto di una curva elicoidale avvolta intorno al corpo da esaminare, associa un numero reale: la quantità di massa incontrata da un fascio di raggi X proveniente da tale punto. Una foto in bianco e nero viene descritta da una funzione che associa a ogni punto di un rettangolo il livello di grigio dell’immagine in quello stesso punto. Un sottoinsieme \(S\) dello spazio tridimensionale è equivalente alla funzione distanza da \(S\), funzione che porta ogni punto dello spazio in un numero reale.

Il primo atto nella costruzione del modello consiste dunque nella scelta dello spazio \(\Phi\) delle funzioni limitate \(\varphi\) (qui supposte per semplicità a valori reali) che possono essere prodotte dallo strumento di misura o dall’agente considerato, e nel dotare \(\Phi\) della distanza \(d(\varphi_1,\varphi_2):=\sup _{x\in X}|\varphi_1(x)-\varphi_2(x)|\).

Occorre poi definire su \(X\) una pseudo-metrica (cioè una metrica dove si consente a due punti di avere distanza nulla senza coincidere) che ponga la distanza fra \(x_1,x_2\in X\) uguale all’estremo superiore delle distanze fra i valori assunti in \(x_1\) e \(x_2\) dalle funzioni \(\varphi\in\Phi\). Questa scelta è coerente col fatto che si possono distinguere due oggetti soltanto se esiste un dato che li discrimina. Si sceglie poi un gruppo \(G\) di trasformazioni bicontinue (omeomorfismi) da \(X\) in \(X\) che preservino l’insieme \(\Phi\).

Infine, si considera l’insieme degli operatori \(F:\Phi\to\Psi\) che trasformano funzioni di \(\Phi\) in funzioni di un altro spazio di dati \(\Psi\) rispettando due proprietà importanti: \(F\) deve essere compatibile con l’azione dei gruppi di equivarianza \(G,H\) rispettivamente corrispondenti a \(\Phi\) e \(\Psi\) e non aumentare la distanza fra i dati. Nel nostro modello \(F\) rappresenta un generico osservatore o, se si preferisce, un agente che elabora le informazioni disponibili e le trasforma in altri dati più semplici.

In un certo senso, il gruppo \(G\) esprime le equivalenze fra le informazioni percepite dall’osservatore prescelto. Ad esempio, se lavoriamo con delle foto potremmo richiedere che \(G\) sia il gruppo delle isometrie del piano, registrando il fatto che l’osservatore non ha interesse a distinguere una foto da un’altra ottenuta dalla prima facendola scivolare o ruotare su di un tavolo. La non espansività degli operatori corrisponde invece, in parole povere, al fatto che siamo interessati agli agenti che semplificano e sintetizzano le informazioni disponibili, non a quelli che le rendono più complesse.

Fin qua avremmo solo una descrizione sofisticata degli agenti interessanti mediante questi operatori (detti Group Equivariant Non-Expansive Operators: in breve “GENEO”). Ma la matematica entra veramente in gioco quando si possono dimostrare teoremi.

Il risultato centrale che abbiamo dimostrato è che, sotto ipotesi piuttosto naturali, lo spazio \(\mathcal{F}\) dei GENEO risulta compatto e convesso; ciò rende teoricamente corretta e algoritmicamente plausibile la ricerca del miglior approssimante in \(\mathcal{F}\) dell’osservatore che si desidera emulare. Al tempo stesso esistono metodologie basate sulla topologia persistente ^{[2 ]}H. Edelsbrunner, D. Morozov, Persistent homology: theory and practice. European Congress of Mathematics, 31–50, Eur. Math. Soc., Zürich, 2013. ^{[3 ]}Massimo Ferri, L’incredibile ubiquità della topologia persistente, MaddMaths! (18 Agosto 2016) – una teoria sviluppata negli ultimi trenta anni – che permettono di confrontare in modo relativamente veloce i GENEO.

Questi risultati aprono la strada a un nuovo approccio alla costruzione di reti neurali che usi i GENEO come mattoni elementari, rendendo lo studio delle proprietà di tali reti accessibili da un punto di vista matematico. Fra queste proprietà sono particolarmente importanti quelle che spiegano come l’interazione fra GENEO possa produrre cooperazioni o conflitti all’interno delle medesime reti ^{[4 ]}P. Frosini, Does intelligence imply contradiction?, Cognitive Systems Research, vol. 10 (2009), n. 4, 297-315. (Una bella presentazione dell’articolo è disponibile qui).

Ciò che appare in ogni caso cruciale è la necessità dello sviluppo di nuove teorie formali per la scienza dei dati e l’intelligenza artificiale. Mancare oggi questa sfida scientifica sarebbe alquanto imbarazzante. Che avremmo detto della comunità matematica del secolo scorso se avesse deciso di ignorare i problemi offerti dalla teoria della relatività e dalla meccanica quantistica?

Patrizio Frosini

Roberto Natalini

Roberto Natalini [coordinatore del sito] Matematico applicato. Dirigo l’Istituto per le Applicazioni del Calcolo del Cnr e faccio comunicazione con MaddMaths!, Archimede e Comics&Science.

Note e riferimenti[+]

Note e riferimenti
⇧1	M. G. Bergomi, P. Frosini, D. Giorgi, N. Quercioli, Towards a topological-geometrical theory of group equivariant non-expansive operators for data analysis and machine learning, Nature Machine Intelligence, vol. 1, n. 9, pages 423–433 (2 September 2019). (Articolo disponibile alla pagina https://rdcu.be/bP6HV ).
⇧2	H. Edelsbrunner, D. Morozov, Persistent homology: theory and practice. European Congress of Mathematics, 31–50, Eur. Math. Soc., Zürich, 2013.
⇧3	Massimo Ferri, L’incredibile ubiquità della topologia persistente, MaddMaths! (18 Agosto 2016)
⇧4	P. Frosini, Does intelligence imply contradiction?, Cognitive Systems Research, vol. 10 (2009), n. 4, 297-315. (Una bella presentazione dell’articolo è disponibile qui)