Modelli matematici alla base dei software di traduzione

da admin | 8 Maggio 2011 | News, News

I traduttori online sono uno degli strumenti informatici più utilizzati al giorno d’oggi, ma per decenni, essi erano più che altro utili per divertirsi. Negli ultimi anni tuttavia le cose sono completamente cambiate, grazie all’utilizzo dei metodi statistici.

Inizialmente i software di traduzione utilizzavano dei modelli linguistici, ovvero al computer venivano fornite le principali regole grammaticali delle diverse lingue. L’idea di fondo di tale approccio era di far in modo che il computer potesse riconoscere la costruzione grammaticale di una frase in una particolare lingua e quindi riscriverla in un’altra seguendo le opportune regole. Il software quindi avrebbe dovuto tradurre la frase in modo corretto in un’altra lingua, mantenendo intatto il suo significato. Ma le regole grammaticali, così diverse tra le varie lingue, hanno reso tutto questo molto complesso.

Un primo importante passo avanti nel miglioramento di tali software è stato compiuto da Frederick Jelinek ed il suo gruppo di ricerca della IBM negli anni ’70. Essi sostenevano che utilizzando la statistica e la teoria della probabilità, al posto delle regole grammaticali, un computer potesse tradurre un testo in modo più efficiente da una lingua ad un’altra. Essi in sostanza sostenevano che la traduzione fosse più un problema matematico che linguistico.

Secondo questi ricercatori, il computer non doveva capire il significato di ciò che stava traducendo, ma solo cercare le informazioni utili alla traduzione in un database di parole e frasi nelle diverse lingue, creato dai programmatori. Il computer doveva quindi esser programmato per cercare le costruzioni più comuni della frase in esame e quindi allineare le parole nel giusto ordine, semplicemente seguendo gli esempi a sua disposizione.

Warren Weaver, un matematico della Fondazione Rockefeller, ha per primo proposto l’idea del modello statistico per la traduzione. Nel 1947 infatti scriveva: “Quando guardo un articolo in russo, penso: ‘questo in realtà è scritto in inglese, bisogna solo decodificare questi strani simboli’ ”.

La costruzione del database a disposizione del computer iniziò con l’esame dei documenti prodotti dal parlamento Canadese, che erano tradotti in inglese e francese. Il gruppo di Jelinek cominciò ad utilizzare il computer per allineare automaticamente le frasi nelle versioni francesi ed inglesi dei documenti parlamentari. Per fare ciò essi crearono delle corrispondenze tra le frasi dei due verbali che avevano approssimativamente la medesima lunghezza. Per esempio, se una frase in inglese costituita da 20 parole corrispondeva a due frasi in francese di 10 parole ciascuna, allora il computer doveva far corrispondere la frase in inglese con le due frasi in francese.
La qualità della traduzioni ottenute ovviamente miglioravano notevolmente man mano che i ricercatori dell’IBM arricchivano il database prendendo in considerazione altri documenti.
Nel caso delle lingue europee, per esempio, i ricercatori presero in considerazione i documenti prodotti dall’unione Europea, dato che sono sempre tradotti nelle 23 “lingue ufficiali” della EU. Proprio per questo la qualità della traduzione delle lingue europee mediante tali software oggi è molto alta.

I ricercatori della IBM utilizzarono i metodi statistici per identificare le strutture delle frasi e i gruppi di parole che erano più comuni nelle frasi accoppiate. Questo è fondamentalmente il sistema utilizzato ancora oggi.

Sebbene il progetto della IBM abbia avuto inizio più di 20 anni fa, il miglioramento dei software di traduzione ha richiesto molto tempo sia per raffinare le tecniche utilizzate e costruire dei database sufficientemente ricchi sia per arrivare ad avere computer abbastanza potenti da maneggiare la complessità di molte eccezioni linguistiche.

Il più importante passo avanti nel potenziamento dei programmi di traduzione è stato compiuto nel 2007 quando Google introdusse il primo software di traduzione gratuita online, basato su metodi statistici. A quel tempo, altri programmi di traduzione online utilizzavano ancora il vecchio sistema di traduzione basato sulle regole grammaticali.

“Immediatamente si vide un grande progresso nello sviluppo della tecnologia grazie alla spinta di Google”, afferma Dimitris Sabatakakis, direttore esecutivo di Systran, una tra le prime compagnie ad occuparsi di software di traduzione.

Oggi, dopo che per molti anni il modello linguistico è stato totalmente messo da parte, la traduzione statistica sta di nuovo abbracciando la grammatica e le regole delle lingue per cogliere le sfumature e migliorare l’accuratezza della traduzione. Secondo gli esperti quindi, i miglioramenti nei sistemi di traduzione consistono non solo nell’ampliare i database utilizzati ma anche nel migliorare la capacità degli scienziati di includere alcune informazioni linguistiche all’interno dei programmi. Presto, affermano i ricercatori, ci saranno nuovi e migliori software “linguaggio-linguaggio”, in grado di gestire per esempio le traduzioni simultanee online nelle riunioni.