Chiunque abbia provato BabelFish o Google Translate sa che forniscono servizi di traduzione utili, ma ben lungi dall’essere perfetti. L’idea di base di questi sistemi è di confrontare un corpus di parole di una lingua con lo stesso corpus di parole tradotte in un altro idioma: parole e frasi che condividono proprietà statistiche simili sono considerati equivalenti. Il problema, naturalmente, è che le traduzioni iniziali si basano su dizionari che devono essere compilati da esperti umani e questo richiede tempo e fatica.
Ora pero’, Tomas Mikolov e colleghi di Google a Mountain View, come si legge su arXiv, hanno sviluppato una tecnica che genera automaticamente dizionari e tabelle di frasi che convertono una lingua in un’altra. Il nuovo metodo non si fonda su versioni in diverse lingue di uno stesso documento ma utilizza tecniche di data mining per creare un modello della struttura di una lingua che poi viene paragonato alla struttura di un’altra lingua. Il nuovo approccio è relativamente semplice: si basa sul fatto che ogni lingua descrive un insieme simile di idee e le parole che vi appartengono devono necessariamente essere simili. Per esempio, la maggior parte dei linguaggi avrà parole per animali comuni come cane, gatto, mucca e così via. E queste parole saranno usate nello stesso modo in frasi come ”il gatto e’ un animale più piccolo del cane”.
Il nuovo trucco e’ rappresentare un’intera lingua usano le relazioni fra le parole. L’insieme di tutte le relazioni, il cosiddetto ”spazio del linguaggio”, può essere pensato come un insieme di vettori che vanno da una parola all’altra. Negli ultimi anni, i linguisti hanno scoperto che e’ possibile gestire questi vettori matematicamente. Per esempio, l’operazione ”re”-”uomo” + ”donna” risulta in un vettore che è simile a ”regina”. Si è scoperto che diversi linguaggi condividono similitudini in questo spazio vettoriale: il processo di conversione da una lingua all’altra si riduce allora a trovare la trasformazione matematica che trasforma uno spazio vettoriale nell’altro. Un problema linguistico diventa quindi di tipo matematico e gli studiosi di Google hanno trovato una opportuna applicazione che colleghi i due spazi vettoriali. ”Il nostro metodo è estremamente efficace: abbiamo raggiunto finora una precisione del 90 per cento nelle traduzioni fra inglese e spagnolo” ha commentato Mikolov.
a cura di Stefano Pisani
molto interessante. per la cronaca, l’articolo sembra sia questo.