Il 2021 si apre all’insegna delle fake news. Mentre assistiamo alla più grande campagna vaccinale d’emergenza della nostra storia e la democrazia americana subisce un attacco senza precedenti, nel mondo iper-connesso dei social le “notizie non verificate” dilagano indisturbate o quasi. La campagna No-Vax da un lato e i gruppi QAnon dall’altro seminano infatti incertezza e disinformazione tra gli utenti della rete, soprattutto quelli meno preparati culturalmente, ma non solo loro, e costituiscono un fenomeno pericoloso e difficile da gestire.
Uno dei metodi utilizzati per amplificare una fake-news è lo sviluppo di testi auto-generati, come i commenti che compaiono sotto i “post violenti” di alcuni leader politici. E qui entrano in gioco gli algoritmi matematici che provano a contrastare questo fenomeno.
La storia dell’informatica e della computer-science viaggia di pari passo con lo sviluppo di questo tipo di testi. Dal secondo dopoguerra i programmatori hanno lavorato intensamente per rendere agevole la comunicazione tra le macchine e gli uomini. I primi sistemi di successo in questa direzione sono stati ELIZA (1964) e Racter (1984). L’uso di metodi statistici consente di sviluppare messaggi automatici sensati e grammaticamente corretti. L’idea di base è semplice. Consideriamo la parola “ala”. Vedendo le serie storiche, si nota che è maggiormente correlata con il verbo “volare” piuttosto che “nuotare.” Così la macchina apprende come utilizzare la parola “ala” e con quale verbo, “Sbatte le ali per volare” sarà preferito a “Muove le ali per nuotare”.
Con l’avvento dei social-network l’utilizzo dei testi auto-generati è diventato un’arma raffinata per favorire la diffusione delle fake news, e con i sistemi tradizionali di riconoscimento automatico dei testi fino a poco tempo fa era possibile individuare un testo auto-generato solo nel 54% dei casi.
Negli ultimi due anni è arrivata una svolta. Sebastian Gehrmann e Alexander Rush, di Harvard, e Hendrik Strobel, del laboratorio MIT-IBM, hanno sviluppato GLTR, un tool che consente di riconoscere testi con successo auto-generati. Il tool è strutturato in due tipologie di test. È individuata una distribuzione di probabilità, associata al linguaggio in cui è scritto il testo. Il primo test è basato sul principio di massima verosimiglianza rispetto alla distribuzione inziale e verifica se una parola appartiene al linguaggio predetto. Il secondo, utilizzando l’entropia alla Shannon rispetto alla stessa distribuzione, verifica se il contesto è noto al sistema così da validare la predizione.
L’idea alla base è che i testi auto-generati tendono ad utilizzare parole e costrutti che maggiormente ricorrono in quel contesto. Senza scendere troppo nei dettagli, per valutare la probabilità che un un testo sia auto-generato, lo strumento GLTR funziona più o meno così. Le parole che corrispondono con le 10 più usate in quel contesto sono evidenziate in verde, in giallo quelle che coincidono con le 100 più usate, in rosso quelle che coincidono con le 1000 più usate, e tutte le altre in viola. Se il numero di parole in verde è “molto alto”, allora il testo è contrassegnato come auto-generato.
Ed è qui che arriva la buona notizia. GLTR consente di riconoscere testi auto-generati nel 72% dei casi. Ovviamente c’è ancora molto da fare per migliorare l’implementazione e l’efficienza di algoritmi, ma è un primo segnale e nel frattempo confidiamo almeno nell’arma del buonsenso.
[Illustrazione di Luca Manzo]
Caro Marco,
una notizia (certamente non fake – b.t.w. Hai ‘testato’ l’algoritmo sul tuo testo ? È possibile ?) molto interessante e complimenti per la tua ‘fluidità’ nel comunicare !