DNA-puzzles: un gioco per matematici

On July 29, 2010

La prima mappatura del genoma umano ha richiesto un impegno internazionale ed è costata circa 300 milioni di dollari. Oggi, con il “sequenziamento massivo” è possibile ottenere la sequenza del genoma di un singolo individuo in circa una settimana ad un costo di poche migliaia o decine di migliaia di dollari. La matematica aiuta ad analizzare l’enorme mole di dati di questo processo in modo rigoroso, verso la medicina personalizzata…

di Claudia Angelini e Italia De Feis

Istituto per le Applicazioni del Calcolo "M. Picone" - CNR

Il Progetto Genoma Umano è stato un progetto di ricerca scientifica internazionale che ha visto la partecipazione di centinaia di ricercatori in circa 20 istituzioni di 6 paesi ed ha avuto un costo stimabile di 270.000.000 $. Ebbene, oggi, con la tecnologia del sequenziamento massivo è possibile ottenere la sequenza del genoma di un singolo individuo in circa una settimana ad un costo di poche migliaia o decine di migliaia di dollari. Questo rappresenta, da un punto di vista delle possibilità della ricerca, una rivoluzione enorme.

Ovviamente, con lo stesso procedimento, si possono ottenere sequenze di DNA di un qualsiasi organismo, ed è lecito attendersi che nel futuro prossimo, grazie agli ulteriori sviluppi della tecnologia, si possa effettivamente realizzare il sogno di un genoma al costo di 1000 $.

image

Tutto questo non è certamente esente da problemi etici e di privacy che dovranno essere opportunamente affrontati, ma al contempo offre alla comunità scientifica un’opportunità incredibile. La comprensione della variabilità biologica (le differenze tra i diversi individui) e dei meccanismi di regolazione cellulare apriranno nuove prospettive allo studio delle cause di insorgenza, progressione e prognosi di molteplici patologie (sia mendeliane che complesse) nella direzione della medicina personalizzata.

I risultati preliminari ottenuti con i sequenziatori di nuova generazione hanno anche mostrato che le conoscenze attuali in ambito genetico rappresentano solo la punta dell’iceberg e che le differenze tra i diversi individui, tra popolazioni e tra specie di esseri viventi, sono molto maggiori di quanto ci si poteva immaginare inizialmente. Su queste basi, nel 2008, è stato lanciato il progetto 1000 Genomi che mira al sequenziamento di oltre 1000 genomi umani allo scopo di studiarne le variabilità strutturali, spesso associate a particolari patologie. Il progetto esaminerà il genoma umano con una risoluzione mai tentata prima e genererà in tre anni una mole di dati 60 volte maggiore di quanti ne siano stati depositati in tutti i database genetici negli ultimi 25 anni. Similmente nel 2009 è partito il progetto 10.000 Genomi che ha l’obiettivo di creare un archivio delle sequenze genomiche di circa 10.000 specie di vertebrati di ogni genere come mammiferi, uccelli, anfibi e pesci. Progetti analoghi sono stati proposti per altri organismi come ad esempio le piante.

image (1)

 

Ebbene, cosa c’entra la matematica in tutto questo?

Occorre osservare che i sequenziatori massivi non sono in grado di leggere la sequenza del DNA in modo continuo, ma si limitano a fornire la sequenza di centinaia di milioni di piccoli frammenti (detti reads) di DNA. Ogni sequenza letta è di lunghezza dell'ordine delle poche decine o poche centinaia di basi a seconda dello strumento utilizzato. Queste reads vengono determinate frammentando copie multiple del DNA in modo casuale e leggendo la sequenza di ogni pezzetto prodotto con strumenti opportuni. Una stessa regione viene pertanto sequenziata più volte a partire da punti iniziali diversi con reads che possono avere lunghezze diverse, fornendo quello che si chiama un alto coverage del genoma.

Il primo problema che si pone è quello di ri-assemblare insieme tutte le reads prodotte al fine di ricostruire la sequenza dell'intero genoma. Per fare un esempio è come ricostruire un'immagine che contiene molte zone simili (i genomi contengono molte regioni ripetute) a partire da milioni di pezzettini, in parte sovrapponibili.

Spesso esiste un'immagine cui far riferimento (genoma di riferimento), che tuttavia non è esattamente uguale all'immagine che si vuole ricostruire, ma è molto simile. In tal caso questa immagine viene utilizzata come guida per posizionare i pezzettini, tenendo conto che vi possono essere delle differenze dovute alla diversità individuale e delle differenze dovute ad errori nella lettura delle reads da parte dello strumento. In altri casi questa immagine di riferimento manca e quindi la ricostruzione avviene de-novo, rendendo il problema estremamente difficile.

image (2)

L'obiettivo è quello di ricostruire l'intera immagine -risolvere il puzzle-, o comunque una sua versione quanto più completa ed accurata possibile, in tempi molto rapidi. Comunque, indipendentemente dal tipo di strategia, la ricostruzione del genoma di un organismo complesso non è solo una sfida biochimica: è un incubo logistico, che può essere risolto solo con algoritmi intelligenti. Pertanto si devono combinare metodi di statistica, di ottimizzazione combinatoria e di informatica, nonché piattaforme di calcolo ad elevate prestazioni.

Comunque, non si tratta solo di risolvere il puzzle, ma anche (e sopratutto) di studiare quanto è stato assemblato ed estrarre da questo un'informazione biologica rilevante. Ovvero, si tratta di comprendere il contenuto, individuare le differenze, separare quelle dovute ad errori di sequenziamento o di assemblaggio da quelle biologiche ed infine associare le differenze ritenute significative a particolari condizioni patologiche. È come individuare cosa avviene, trovare le differenze tra una serie di immagini molto simili, ricostruite in modo in parte frammentario per ciascun campione, ma con una risoluzione mai immaginata fino ad adesso, e distinguere i particolari differenti sulla base di fattori comuni a certe immagini piuttosto che ad altre. Occorre tener presente che cercare le differenze nel DNA è quasi come cercare il cosiddetto ago nel pagliaio, visto che ad esempio il genoma umano è composto da oltre 3 miliardi di basi. In questa fase l'approccio statistico è quello più utilizzato. Si tratta di risolvere un problema di individuazione e stima di un segnale affetto da rumore (in qualche senso ‘disturbato’) e di test di ipotesi statistica. Si parte quindi dalla costruzione di un modello matematico del segnale genetico e da uno studio delle caratteristiche delle diverse fonti di variabilità o incertezza che si possono avere, in un contesto di dati ad altissima dimensione.

I sequenziatori massivi oltre a fornire un'immagine ad altissima risoluzione del genoma, consentono anche di fotografare con la stessa precisione elementi particolarmente interessanti come ad esempio i geni (ovverosia il trascrittoma) e/o i suoi meccanismi di regolazione. Integrare tutte le informazioni insieme consente di creare una sorta di "Google Earth" dell'intero genoma, in cui si può navigare dall'informazione globale fino alla risoluzione della singola base e si possono individuare i vari percorsi (modalità di regolazione e connessioni) e le condizioni di utilizzo, come se si trattasse della ricerca di informazioni stradali, di traffico o di strade bloccate.

Le reads prodotte possono essere utilizzate per individuare gli elementi funzionali nel genoma e fornire una stima quantitativa dei diversi eventi che avvengono all'interno di una cellula. Il dato quantitativo può essere utilizzato non solo per creare un'immagine statica del genoma e comprendere quello che accade in un determinata condizione, ma anche - e soprattutto - per poter studiare i meccanismi dinamici, cioè capire dove, come, e perché un certo gene viene espresso, in che quantità questo avviene e come i geni sono legati ed interagiscono tra di loro.

Decodificare le immagini statiche e dinamiche delle funzioni del genoma consente di individuare quali siano gli elementi chiave su cui i medici ed i biologi possono focalizzarsi per trovare la cura di una particolare malattia e consente anche di fare studi in simulazione (in silico) per predire la risposta ad un determinato trattamento farmacologico. In apparenza tutto sembra semplice, ma si deve innanzitutto costruire un modello matematico per descrivere accuratamente un fenomeno biologico che si vuole studiare, quindi si deve estendere il modello al fine di collegare i dati realmente osservati al fenomeno biologico di interesse e, solo successivamente, si pone il problema dell'estrazione dell'informazione a partire dal modello e dai dati osservati attraverso una procedura inferenziale.

In conclusione, l'utilizzo della matematica in questo campo non è nuovo, ma sicuramente è aumentato con l'alta risoluzione, lo sviluppo della tecnologia, in grado di fornire misure quantitative, e delle piattaforme di calcolo. Sin dal Progetto Genoma Umano la ricerca in campo genetico e bio-medico è diventata sempre più multidisciplinare coinvolgendo in modo particolare l'informatica e la matematica ma, mai come adesso, solo da una piena sinergia tra le varie discipline, si può fare il salto di qualità verso una reale medicina personalizzata.

Leave a Reply

Your email address will not be published. Required fields are marked *

this site uses the awesome footnotes Plugin