Codificare antichi scritti... con la statistica

On October 1, 2009

Il manoscritto Voynich, scritto nel medioevo, è noto come il libro più misterioso del mondo perché non è stato ancora decifrato. Ma grazie a un nuovo metodo statistico, forse non sarà più così...

 

Un metodo statistico che mette in risalto le parole più significative presenti in un libro potrebbe aiutare gli studiosi a decodificare antichi testi.

Per gli uomini è facile identificare le parole che caratterizzano l’argomento di un testo (ad esempio “balena” è la parola chiave di Moby Dick), ma questo è un compito ancora difficile per i computer. Marcelo Montemurro, dell’Università di Manchester in Gran Bretagna, e alcuni suoi colleghi hanno sviluppato di recente un metodo basato sulla teoria dell’informazione che consente di identificare l’importanza di una parola in un testo. “Sembra che quello che noi chiamiamo semantica o significato, abbia un’informazione anche a livello di statistiche delle parole” ha detto Montemurro.

Contare semplicemente la frequenza delle parole in un testo non è però sufficiente a causa delle parole di collegamento, come “per” o “il”, che potrebbero confondere l’indagine. Le parole importanti tendono a raggrupparsi nei paragrafi e nei capitoli che si occupano dell’argomento a cui si riferiscono ma considerare questo, a detta di Montemurro, fornisce solo un'indicazione approssimativa su quali siano i termini significativi.

Per un’analisi più dettagliata il gruppo di ricerca ha calcolato “l’entropia” di ogni parola, ovvero una misura di come questa sia distribuita sia nel testo originale che in una versione indecifrabile dove le parole appaiono in ordine random. Dalla differenza delle due entropie moltiplicata per la frequenza della parola, il gruppo ha generato il “valore d’informazione” (information value) della parola nel testo.

Poiché le parole di collegamento sono distribuite piuttosto uniformemente sia nel testo modificato che in quello originale, il loro valore d’informazione risulta essere basso.

Le parole significative hanno un valore alto invece, perché tendono a raggrupparsi nel testo originale e sono piuttosto comuni. Quando questa tecnica è stata applicata su “L’origine delle specie” di C. Darwin, e tra le prime 10 parole sono risultate incluse: specie, varietà, ibridi, forme, isole, selezione e generi (www.arxiv.org/abs/0907.1558).

Tecniche simili potrebbero essere applicate anche in biologia, per identificare ad esempio i geni che portano “informazioni”. “E’ questo il luogo dove è possibile applicare direttamente tale tecnica”, ha detto Marcelo Magnasco professore presso la Rockefeller University di New York, perché “quando guardiamo il genoma sembra davvero una lingua aliena”.

Leave a Reply

Your email address will not be published. Required fields are marked *