Wikipedia, si sa, è un’enciclopedia online che vive dei contributi e degli aggiornamenti degli utenti. Milioni di articoli che hanno costantemente bisogno di modifiche e aggiornamenti che recepiscano nuove informazioni di una realtà sempre in evoluzione. Un lavoro enorme che può comportare espansioni di articoli, importanti riscritture oltre alle modifiche di routine che comprendono l’aggiornamento di numeri, date, nomi e posizioni. Attualmente, utenti (umani) di tutto il mondo si offrono volontari per questo tipo di operazioni ma, un giorno, un sistema di Intelligenza Artificiale creato dai ricercatori del MIT potrebbe scendere in campo per aggiornare in automatico le incongruenze di questi articoli.
Darsh Shah, un dottorando del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, è uno degli autori principali del documento presentato alla conferenza AAAI sull’intelligenza artificiale, in cui è descritto un sistema di generazione di testo che individua e sostituisce informazioni specifiche nelle frasi “pertinenti” di Wikipedia, mantenendo un linguaggio simile a quello delle persone che scrivono e modificano.
In questo sistema, gli utenti dovrebbero scrivere in un’interfaccia una frase non strutturata con informazioni aggiornate, senza doversi preoccupare di stile o grammatica. Il sistema successivamente individua la pagina appropriata di Wikipedia, e la frase obsoleta e la riscrive in modo “umano”. In futuro, affermano i ricercatori, probabilmente sarà possibile creare un sistema completamente automatizzato che identifichi e utilizzi informazioni aggiornate da tutto il Web per produrre frasi riscritte nei corrispondenti articoli di Wikipedia, in modo da riflettere informazioni aggiornate.
Esistono molti altri sistemi “robot” che apportano modifiche automatiche a Wikipedia, solitamente per tenere sotto controllo il vandalismo o far cadere alcune informazioni strettamente definite in modelli predefiniti. Il nuovo modello, invece, risolve un problema di Intelligenza Artificiale più difficile: dato un nuovo pezzo di informazioni non strutturate, il modello modifica automaticamente la frase in modo “umano”. “Gli altri compiti assegnati ai bot sono più basati sulle regole, mentre nel nostro modello è richiesto un ragionamento su parti contraddittorie e che alla fine genera un testo coerente” spiegano gli scienziati.
Il sistema prende come input una frase “obsoleta” da un articolo di Wikipedia, oltre a una frase separata che contiene informazioni aggiornate e quindi in conflitto con la frase precedente. Il compito è di eliminare automaticamente e mantenere parole specifiche nella frase obsoleta in base alle informazioni contenute nella nuova frase, in modo da aggiornare i fatti mantenendo stile e grammatica. Un compito facile per gli umani, ma non per l’apprendimento automatico.
Per esempio, supponiamo che sia necessario un aggiornamento di questa frase (in grassetto): “Il Fondo A considera 28 delle loro 42 partecipazioni di minoranza in società operativamente attive di particolare rilevanza per il gruppo”. La frase con informazioni aggiornate può essere la seguente: “Il fondo A considera 23 delle 43 partecipazioni di minoranza significative”. Il sistema individuerebbe il testo di Wikipedia pertinente per “Fondo A”, in base alla nuova frase. Quindi rimuove automaticamente i numeri obsoleti (28 e 42) e li sostituisce con i nuovi numeri (23 e 43), mantenendo la frase esattamente la stessa e grammaticalmente corretta.
In un test, il modello ha ottenuto punteggi più alti di tutti i metodi tradizionali, usando una tecnica chiamata “SARI” che misura il modo in cui le macchine eliminano, aggiungono e mantengono le parole rispetto al modo in cui gli umani modificano le frasi. Utilizzando un set di dati con frasi Wikipedia modificate manualmente, che il modello non aveva mai visto prima, l’accuratezza nel fare aggiornamenti somigliava molto alla scrittura umana: il modello ha ottenuto punteggi medi di 4 negli aggiornamenti fattuali e 3,85 nella grammatica corrispondente, valutati da un gruppo di utenti umani su una scala da 1 a 5.