La matematica smaschera il falso letterario
Sono almeno cent’anni che si inventano tecniche matematiche per indagare la struttura dei testi letterari, e da meno di vent'anni queste idee vengono finalmente sperimentate in modo esteso, grazie alla diffusione degli strumenti informatici e della digitalizzazione dei testi…
Avranno sorpreso non pochi lettori due recenti notizie: che si possono individuare le parole importanti di un testo senza nemmeno conoscere la lingua in cui è scritto [1], e che un problema di attribuzione di una tragedia sheakspeariana è stato risolto da un software [2].
Ebbene, non c'è da stupirsi: sono almeno cento anni che si inventano tecniche matematiche per indagare sulla struttura dei testi letterari, e da meno di vent'anni queste idee vengono finalmente sperimentate in modo esteso, grazie alla diffusione degli strumenti informatici e della digitalizzazione dei testi.
Il sogno visionario che spinge chi fa ricerca in questo campo è di scoprire che esiste una 'cifra' caratteristica di ogni autore, descrivibile numericamente e che permetta di distinguere i suoi testi da quelli degli altri.
Può sembrare un obiettivo ingenuo rispetto alla complessità di
un'opera e della sua relazione con un autore, eppure ci sono
robuste idee matematiche che guidano queste ricerche.
L'astrazione chiave è considerare un autore come una 'sorgente
ergodica' di simboli, cioè un generatore di sequenze infinite di
lettere, spazi, simboli di interpunzione, con ben definite
proprietà statistiche.
I suoi testi sono dei 'campioni', e si possono quindi usare su di essi, con relativa sicurezza concettuale, gli strumenti della teoria della probabilità e della teoria dell'informazione: si può misurare la 'quantità' di informazione contenuta in un testo, e si possono ottenere significativi indici numerici andando ben oltre il computo della frequenza delle parole.
Questi metodi funzionano: in collaborazione con la Fondazione
Istituto Gramsci abbiamo messo a punto un test di 'gramscianità'
per distinguere gli articoli di giornale di Gramsci dagli
articoli di altri autori politici dello stesso periodo.
Una fase cruciale della ricerca è stata una prova cieca preparata
da ricercatori dell'Istituto, in cui il metodo ha individuato
correttamente il 90% dei testi effettivamente gramsciani, e ha
respinto il 100% dei testi non gramsciani [3].
Usare queste idee per distinguere un autore da un altro vuol dire in
particolare spostare l'attenzione dalle parole agli n-grammi,
cioè a tutte le possibili sequenze di n simboli, spazi e punteggiatura
inclusi. Siamo dunque ben distanti dagli approcci umanistici ai
problemi di attribuzione: in particolare possiamo affermare che
la differenza tra gli scritti di Gramsci e degli altri autori è
ben visibile a livello di 8-grammi (cioè sequenze lunghe 8
simboli, come per esempio "e; e tut"), ma nulla sappiamo dire
sulla rilevanza dell'uso dell'espressione "vita nazionale".
D'altra parte, questo tipo di sperimentazioni è solo agli inizi; è
lecito attendersi ulteriori passi avanti e forse anche
avvicinamenti tra metodi quantitativi e qualitativi.
Rimane comunque centrale il problema di valutare la validità dei risultati, infatti la scrittura di un'opera non è un evento ripetibile, e in definitiva l'esito di una procedura di attribuzione difficilmente può essere confermato o smentito. È per esempio accaduto con lo scrittore olandese A. Grunberg che confessò di celarsi dietro il nome di M. van der Jagt, confermando pubblicamente le nostre indicazioni [4], mentre un analogo disvelamento non si è verificato con la misteriosa Elena Ferrante [5].
Per dare credibilità ai risultati è dunque indispensabile provare preliminarmente la validità dei metodi in condizioni controllate, e tra gli strumenti utilizzati dalla comunità scientifica ci sono le gare internazionali in cui i metodi vengono messi a confronto su prove cieche [6][7]. Inoltre è essenziale che a questi studi partecipino a pieno titolo ricercatori di formazione letteraria.
In assenza di questi elementi si rischia di ottenere un 'responso oracolare', che viene accettato o rifiutato in base alla fede nello strumento informatico, e non in base alle idee che strutturano il metodo. Ne sono un esempio i titoli della notizia sulla parziale attribuzione a T. Kyd dell'Edoardo III ("un computer dimostra..."), e le reazioni che ha suscitato ("un computer non potrà mai spiegare...").
Un commento più approfondito su questo caso dovrebbe invece
partire dall'analisi del programma utilizzato, che è un software
antiplagio, presumibilmente inadatto a un problema di
attribuzione.
Dipartimento di Matematica
Sapienza Università di Roma
[1] www.galileonet.it/news/11785/a-ogni-parola-il-suo-valore
[2]
www.repubblica.it/2009/10/sezioni/spettacoli_e_cultura/shakespeare-software/shakespeare-software/shakespeare-software.html
[3] dx.doi.org/10.1063/1.2996507
[4]
libri.blog.rainews24.it/2004/09/27/arnon-grunberg-gstaad-95-98
[5] L'Unita', 23 novembre 2006
[6] www.mathcs.duq.edu/~juola/authorship_contest.html
[7] www.webis.de/pan-09/competition.php
