La matematica smaschera il falso letterario

On December 25, 2009

Sono almeno cent’anni che si inventano tecniche matematiche per indagare la struttura dei testi letterari, e da meno di vent'anni queste idee vengono finalmente sperimentate in modo esteso, grazie alla diffusione degli strumenti informatici e della digitalizzazione dei testi…

 

Avranno sorpreso non pochi lettori due recenti notizie: che si possono individuare le parole importanti di un testo senza nemmeno conoscere la lingua in cui è scritto [1], e che un problema di attribuzione di una tragedia sheakspeariana è stato risolto da un software [2].

Ebbene, non c'è da stupirsi: sono almeno cento anni che  si inventano tecniche matematiche per indagare sulla struttura dei testi letterari, e da meno di vent'anni queste idee vengono  finalmente sperimentate in modo esteso, grazie alla diffusione degli strumenti informatici e della digitalizzazione dei testi.

Il sogno visionario che spinge chi fa ricerca in questo campo è di scoprire che esiste una 'cifra' caratteristica di ogni autore, descrivibile numericamente e che permetta  di distinguere i suoi testi da quelli degli altri.

Può sembrare un obiettivo ingenuo rispetto alla complessità di  un'opera e della sua relazione con un autore, eppure ci sono robuste  idee matematiche che guidano queste ricerche.

L'astrazione chiave è considerare un autore come una 'sorgente ergodica' di simboli, cioè un generatore di sequenze infinite  di lettere, spazi, simboli di interpunzione,  con ben definite proprietà statistiche.

I suoi testi sono dei 'campioni', e si possono quindi usare su di essi, con relativa sicurezza concettuale, gli strumenti della teoria della probabilità e della teoria dell'informazione: si può misurare la 'quantità' di informazione contenuta in un testo, e si possono ottenere significativi indici numerici andando ben oltre il computo  della frequenza delle parole.

Questi metodi funzionano: in collaborazione  con la Fondazione Istituto Gramsci abbiamo messo a punto un test di  'gramscianità' per distinguere gli articoli di giornale di Gramsci  dagli articoli di altri autori politici dello stesso periodo.

Una fase cruciale della ricerca è stata una prova cieca  preparata da ricercatori dell'Istituto, in cui il metodo ha individuato  correttamente il 90% dei testi effettivamente gramsciani,  e ha respinto il 100% dei testi non gramsciani [3].

Usare queste idee per distinguere un autore da un altro vuol dire in particolare spostare l'attenzione dalle parole agli n-grammi,  cioè a tutte le possibili sequenze di n simboli, spazi e punteggiatura inclusi. Siamo dunque ben distanti dagli approcci umanistici ai problemi di  attribuzione: in particolare possiamo affermare che la differenza tra  gli scritti di Gramsci e degli altri autori è ben visibile a  livello di 8-grammi (cioè sequenze lunghe 8 simboli,  come per esempio "e; e tut"), ma nulla sappiamo dire sulla  rilevanza dell'uso dell'espressione "vita nazionale".

D'altra parte, questo tipo di sperimentazioni è solo agli inizi; è lecito attendersi ulteriori passi avanti e forse anche avvicinamenti  tra metodi quantitativi e qualitativi.

Rimane comunque centrale il problema di valutare la validità dei risultati, infatti la scrittura di un'opera non è un evento ripetibile, e in definitiva l'esito di una procedura di attribuzione difficilmente può essere confermato o smentito. È per esempio accaduto con lo scrittore olandese A. Grunberg che confessò di celarsi dietro il nome di M. van der Jagt, confermando pubblicamente le nostre indicazioni [4], mentre un analogo  disvelamento non si è verificato con la misteriosa Elena Ferrante [5].

Per dare credibilità ai risultati  è dunque indispensabile provare preliminarmente la validità dei metodi in condizioni controllate, e tra gli strumenti utilizzati dalla comunità scientifica ci sono le gare internazionali in cui i metodi vengono messi a confronto su prove cieche [6][7]. Inoltre è essenziale che a questi studi partecipino a pieno titolo ricercatori di formazione letteraria.

In assenza di questi elementi si rischia di ottenere un 'responso oracolare', che viene accettato o rifiutato in base alla fede nello strumento informatico, e non in base alle idee che strutturano  il metodo. Ne sono un esempio i titoli della notizia sulla parziale  attribuzione a T. Kyd dell'Edoardo III ("un computer dimostra..."), e le reazioni che  ha suscitato ("un computer non potrà mai spiegare...").
Un commento più approfondito su questo caso  dovrebbe invece partire dall'analisi del programma utilizzato, che  è un software antiplagio, presumibilmente  inadatto a un problema di attribuzione.

Dario Benedetto
Dipartimento di Matematica
Sapienza Università di Roma

[1] www.galileonet.it/news/11785/a-ogni-parola-il-suo-valore

[2] www.repubblica.it/2009/10/sezioni/spettacoli_e_cultura/shakespeare-software/shakespeare-software/shakespeare-software.html

[3] dx.doi.org/10.1063/1.2996507

[4] libri.blog.rainews24.it/2004/09/27/arnon-grunberg-gstaad-95-98

[5] L'Unita', 23 novembre 2006

[6] www.mathcs.duq.edu/~juola/authorship_contest.html

[7] www.webis.de/pan-09/competition.php

Leave a Reply

Your email address will not be published. Required fields are marked *

this site uses the awesome footnotes Plugin