Trovare l’autore di un testo, di solito, non è difficile, se si ha a disposizione la firma. Quando invece la firma non è stata conservata, è deteriorata dal tempo, è stata deliberatamente omessa dall’autore o abbiamo a che fare con uno pseudonimo, l’attribuzione della paternità di uno scritto può diventare una faccenda molto complicata. Questo argomento è al centro della “stilizzazione”, ossia l’applicazione dello studio dello stile linguistico (di solito alla lingua scritta) spesso utilizzata per attribuire la paternità a documenti anonimi o contestati.
In molti casi, i tradizionali metodi “stilometrici” falliscono o non portano a conclusioni sufficientemente attendibili. Gli scienziati dell’Istituto di fisica nucleare dell’Accademia delle scienze polacca di Cracovia hanno proposto un proprio strumento statistico per l’analisi stilometrica, basato sui grafi. Questo metodo consente di esaminare la struttura dei testi in modo qualitativamente nuovo e molto affidabile.
“Le conclusioni della nostra ricerca sono, da un lato, incoraggianti: indicano che l’individualità di una persona si manifesta chiaramente già nel modo in cui usano un numero sorprendentemente basso di parole. L’altro lato oscuro della medaglia è che, visto che siamo così originali, è molto facile identificarci attraverso le nostre dichiarazioni”, ha spiegato Stanislaw Drozdz tra gli autori dello studio. .
La “stenometria” – cioè la scienza che si occupa della determinazione delle caratteristiche statistiche dello stile dei testi – si basa sull’osservazione che ognuno di noi usa lo stesso linguaggio, spesso le stesse parole, ma in un modo leggermente diverso. Alcuni hanno un vocabolario più ampio, altri più ristretto, altri usano certe frasi e commettono errori, altri evitano le ripetizione oppure sono puristi della lingua. E, quando scriviamo, differiamo anche nel modo in cui usiamo la punteggiatura.
Nel tipico approccio stilometrico, vengono solitamente esaminate le caratteristiche di base di un testo , per esempio la frequenza di occorrenza di singole parole, mentre la punteggiatura viene ignorate. Le analisi vengono eseguite sul testo studiato e sui testi scritti da autori potenzialmente noti: alla fine, si ritiene che il creatore del testo sia la persona i cui lavori hanno parametri con i valori più vicini a quelli ottenuti per il materiale da identificare.
“Abbiamo suggerito che le caratteristiche dello stile analizzato siano mostrate in una rappresentazione di rete del testo, utilizzando i grafi”, Tomasz Stanisz, altro autore della ricerca, “un grafo è una raccolta di punti, ‘nodi’ o vertici del grafo, collegati da linee, i bordi del grafo detti ‘archi’. Nel caso più semplice – nella cosiddetta rete non pesata – i nodi corrispondono a singole parole e sono collegati da archi se e solo se due parole date si sono presentate l’una accanto all’altra almeno una volta nel testo. Per esempio, per la frase ‘Jane ha fame’, il grafo avrebbe tre nodi, uno per ogni parola, ma ci sarebbero solo due archi, uno tra ‘Jane’ e ‘ha’, l’altra tra ‘ha’ e ‘fame'”.
Come si legge sulla rivista Information Sciences ricercatori hanno testato diversi tipi di grafi. I migliori risultati sono stati ottenuti con quelli ponderati, in cui ogni arco incorpora anche informazioni sul numero di occorrenze della connessione tra le parole. Due sono i parametri che si sono rivelati più utili: il grado del nodo e il coefficiente di clustering. Il primo descrive il numero di archi provenienti da un determinato nodo (ed è direttamente correlato al numero di occorrenze di una determinata parola nel testo); il coefficiente di clustering, invece, descrive la probabilità che due parole collegate da un arco con una data parola siano collegate anche tra loro.
Usando strumenti statistici preparati in questo modo, i fisici di Cracovia hanno esaminato 96 libri: sei romanzi di otto noti autori inglesi (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell e Twain) e otto autori polacchi (Korczak , Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz e Zeromski). Gli autori includevano due vincitori del Premio Nobel per la letteratura (Wladyslaw Reymont e Henryk Sienkiewicz). Il gruppo di scienziati ha quindi verificato l’attendibilità dell’attribuzione di paternità con 12 opere scelte a caso in una lingua, trattando il resto del gruppo di opere come materiale comparativo.
“Nel caso dei testi in inglese, abbiamo identificato correttamente gli autori in quasi il 90% dei casi. Inoltre, si riusciva a determinare l’autore di un testo anche solo tracciando le connessioni tra 10-12 parole. Un ulteriore aumento del numero di parole studiate non aumentava significativamente l’efficacia del metodo”, spiega Stanisz.
Nella lingua polacca, la determinazione della paternità risultava ancora più semplice e bastava collegare tra loro solo 5-6 parole. Inoltre, nonostante il numero di parole significative fosse la metà di quello inglese, la probabilità di una corretta identificazione aumentava fino al 95%, anche se questa elevata accuratezza veniva raggiunta solo quando i segni di punteggiatura venivano trattati anche come parole separate. In entrambe le lingue, l’omissione della punteggiatura comportava una riduzione significativa del numero di ipotesi corrette. La punteggiatura, dunque, svolgeva un ruolo importante come le parole stesse.
“Rispetto all’inglese, il polacco sembra dare maggiori possibilità di rivelare lo stile di un autore. Probabilmente è così anche con le altre lingue slave con caratteristiche simili. L’inglese è un linguaggio posizionale, l’ordine delle parole in una frase è importante: questo tipo di linguaggio lascia meno spazio a uno stile di espressione individuale rispetto alle lingue slave. Nel polacco, per esempio, l’inflessione è decisiva per il ruolo una parola in una frase e questo consente una maggiore libertà di organizzare l’ordine delle parole, che lascia invariato il significato della frase”, conclude Drozdz.