Storia del sequenziamento: come abbiamo imparato a leggere il nostro DNA.

Grazie alla tecnica del sequenziamento del DNA, che consente di determinare l’ordine delle basi azotate, siamo in grado di “leggere” il codice genetico. Dopo un sequenziamento, quello che si ottiene è un ordine di basi del tipo ATCGATCGAATTGGCCTTAA ecc. che occorre studiare e decifrare. La conoscenza dell’ordine esatto delle sequenze nucleotidiche di una molecola di DNA trova moltissime applicazioni, ad esempio è indispensabile per la ricerca biologica di base e in svariati campi applicati come la diagnostica, le biotecnologie, le scienze forensi e la medicina personalizzata.

Oggi, sequenziare è relativamente semplice ed economico, ma nel 1953, quando Watson e Crick, grazie ad una cristallografia della scienziata Rosalind Franklin, scoprirono la struttura tridimensionale della molecola del DNA, non esistevano ancora tecniche per leggere il codice genetico. Per tutti gli anni ’60, poi, i progressi furono abbastanza lenti: le tecniche dell’epoca, molto costose, permettevano agli scienziati soltanto di misurare la composizione dei nucleotidi, ma non il loro ordine. Erano anche estremamente lente: occorrevano diversi anni per sequenziare uno o due geni soltanto.

A partire dagli anni ’70 del 1900, nacquero diversi filoni di ricerca rivolti al sequenziamento del DNA, il cui punto di svolta venne segnato dal lavoro del chimico britannico Frederick Sanger e del suo team di Cambridge.

Fig.1) First-generation DNA sequencing technologies. Example DNA to be sequenced (a) is illustrated undergoing Sanger (b).

SEQUENZIAMENTO DI I GENERAZIONE. Il “Metodo dei Terminatori a Catena”, o più semplicemente “Metodo Sanger” (Fig.1) è considerato la pietra miliare del sequenziamento genico. Venne ideato osservando il naturale processo di replicazione del DNA, durante il quale due nuovi filamenti sono sintetizzati a partire dal filamento originale, usato come template.

Sanger aggiunse al processo dei nucleotidi particolari, chiamati dideossinucleotidi (ddNTPs), che devono essere marcati (radioattivamente o per fluorescenza) in modo da poter visualizzare le bande dei frammenti di DNA di nuova sintesi. I ddNTPs sono modificati chimicamente in modo tale che, quando inseriti nella catena di DNA in formazione, interrompano il lavoro della DNA polimerasi e quindi la sintesi del filamento. Precisamente, l’analisi di Sanger prevedeva l’inserimento di quattro nucleotidi dideossi (ddATP, ddCTP, ddGTP, ddTTP).

Così facendo, Sanger ottenne frammenti di DNA di lunghezze diverse (fino a 500-1.000 paia di basi). Al termine della reazione, i frammenti generati venivano poi misurati e separati mediante elettroforesi su gel di poliacrilammide, una tecnica introdotta nel 1978.

Durante l’elettroforesi, i frammenti vengono caricati sul gel e fatti attraversare da una corrente elettrica.

Il fenomeno che si osserva è che le molecole più piccole si muovono attraverso il gel più facilmente rispetto a quelle più grandi, che rimangono indietro. Al termine dell’elettroforesi, si procedeva a visualizzare (grazie alla radioattività dei ddNTPs) e a ricostruire la sequenza. I dati venivano poi inseriti manualmente in un computer. Era ovviamente un processo lungo e complicato: si impiegavano circa 12 ore per l’elettroforesi, altre 12 per ottenere la visualizzazione, più diverse ore per leggere la sequenza.

Il Metodo Sanger si rivelò fin da subito molto efficiente, tanto che valse al suo creatore il suo secondo Premio Nobel per la chimica nel 1980. Fred Sanger e il suo team furono i primi scienziati a sequenziare l’intero genoma di un virus che infetta i batteri, phiX714, usando questo metodo. Il genoma di questo microrganismo si componeva di circa 5.000 basi (svariate volte più piccolo del più semplice protozoo). Dopo questo successo, il team di Sanger sequenziò altri genomi, compreso il DNA dei mitocondri umani. Tuttavia, il metodo Sanger era ancora manuale, per cui lento ed estremamente laborioso, soggetto all’errore umano e legato all’uso di sostanze radioattive, dannose per la salute. Quindi, era indispensabile apportare miglioramenti, in particolare nell’eventualità di sequenziare genomi di organismi molto più grandi di un virus, come i protozoi, gli animali e gli umani.

Il primo sequenziatore automatico, ABI370, venne presentato nel 1987 da Applied Biosystem. L’ABI370 funzionava tramite un nuovissimo metodo di elettroforesi capillare unita ad un analizzatore di fluorescenza, che consente di marcare le basi con colori differenti (A = Verde, C = Blu, G = Giallo e T = Rosso). Le fluorescenze colorate venivano poi identificate e visualizzate su un computer in un grafico formato da picchi di colori differenti. La metodica utilizzata per marcare il DNA è praticamente un’evoluzione del metodo di Sanger. Con i macchinari automatizzati si potevano sequenziare frammenti di circa 500.000 paia di basi al giorno, con una lunghezza massima per frammento di circa 600 basi. I macchinari automatizzati riducevano significativamente la possibilità di errore.

Negli anni ’90, quando il Progetto Genoma Umano era in pieno svolgimento, i sequenziatori automatizzati ABI divennero indispensabili e vennero largamente utilizzati per completare il sequenziamento dell’intero genoma umano, che vide la sua conclusione nel 2001.

Fig. 2) Second-generation DNA sequencing parallelized amplification.

SEQUENZIAMENTO DI II GENERAZIONE. L’introduzione delle tecniche di nuova generazione o NGS (Next-Generation Sequencing) nel 2007 ha completamente rivoluzionato l’approccio al sequenziamento del DNA, dopo anni in cui il Metodo Sanger rappresentava ormai un punto fermo per gli scienziati e i ricercatori di tutto il mondo.

La NGS, a differenza dei metodi tradizionali in cui si può sequenziare solo un frammento per volta, consente estendere il processo a moltissimi frammenti contemporaneamente, che vengono sequenziati in parallelo e in modo rapido (Fig.2). Per questa ragione è anche detta sequenziamento ad alta resa (high-throughput).

Nella NGS, il DNA viene frammentato fisicamente in maniera casuale, ad esempio attraverso l’uso di ultrasuoni. I frammenti, che costituiscono la libreria di sequenziamento, serviranno da stampo (verranno copiati molte volte) per la sintesi di altri frammenti complementari, chiamati reads.

A seconda del livello di precisione desiderato è possibile impostare il sistema per ottenere un certo numero di reads. Ad esempio, 100 reads per frammento, definiti in gergo coverage 100x, è il livello di cui abbiamo bisogno per diagnosticare alcune malattie genetiche. Un computer raccoglie infine tutte le sequenze di reads ottenute e le allinea con le sequenze di riferimento presenti nei database. In questo modo le sequenze delle reads possono essere ricostruite, ottenendo la sequenza del gene o del genoma dell’individuo analizzato. Prima del sequenziamento è tuttavia necessario amplificare il DNA tramite PCR.

Fra le tecnologie NGS attualmente disponibili per l’amplificazione vi sono la Roche/454 (pirosequenziamento) dal 2005 e la Illumina/Solexa dal 2006. Per comprendere la portata dell’avanzamento tecnologico in termini di costi, basti pensare che il Progetto Genoma Umano impiegò 10 anni e costò $3.000.000.000, mentre oggi un macchinario NGS è in grado di sequenziare un singolo genoma umano in un giorno e per meno di $5.000.

La tecnologia NGS è nota anche per la sua flessibilità, poiché il macchinario può essere impostato per lavorare con qualsiasi genoma, da quelli più piccoli come quelli dei virus, a quelli più grandi e complessi come quelli degli esseri umani. Tramite NGS, gli scienziati sono in grado di comparare i genomi di molti individui differenti. Ciò è di estrema importanza, ad esempio, in medicina, perché permettono di fare studi di popolazione: confrontare il genoma di un individuo sano e di uno malato e scoprire quali sono i geni che causano una specifica malattia. Possiamo anche esplorare il genoma di virus e batteri, in modo da capire come si sviluppano i loro meccanismi patogeni.

Fig.3) SMRT DNA Sequencing. Copyright 2016 by Pacific Biosciences of California, Inc.

SEQUENZIAMENTO DI III GENERAZIONE. Tuttavia, una delle più grandi limitazioni della NGS oggi disponibile sta nelle reads troppo corte. Una delle sfide maggiori nella progettazione del sequenziatore del futuro è proprio quella di riuscire ad ottenere reads sempre più lunghe.

Infatti, più una read è lunga, più otteniamo una sequenza specifica e un allineamento più preciso con le sequenze di riferimento. A questo proposito, PacBio RS II, un sistema di Third Generation Sequencing sviluppato da Pacific Biosciences e si offre come alternativa a Illumina e Roche.

Mentre la lunghezza delle reads ricavabili con gli ultimi due non supera le centinaia di nucleotidi, PacBio RS II può produrre reads con una lunghezza media che va da 4.200 a 8.500 paia di basi, fino ad un massimo di 30.000.

Inoltre, possiede un tasso di accuratezza estremamente alto (99,99%) e la capacità di identificare varianti con frequenza allelica anche molto bassa (addirittura inferiore allo 0,1%). PacBio RS II utilizza una tecnologia di sequenziamento detta SMRT (Single Molecule Real-Time sequencing). La SMRT è in grado di generare rapidamente reads piuttosto lunghe (10-15 kb) da una singola molecola di DNA. Il sistema coinvolge una molecola di DNA a singolo filamento che si àncora all’enzima DNA Polimerasi. A mano a mano che il sequenziamento procede, la DNA polimerasi aggiunge nucleotidi opportunamente marcati ciascuno con un fluorocromo diverso. Quando il fluorocromo del nucleotide viene rilasciato, un sistema di rilevazione registra l’evento luminoso associato. Il software rielabora infine i segnali luminosi registrati fino a ricostruire la sequenza.

Con l’introduzione di una così precisa ed economica tecnologia di sequenziamento, gli scienziati potrebbero anche ri-sequenziare genomi di cui sono già disponibili le sequenze per ottenere livelli molto più alti di accuratezza. Per esempio, tramite SMRT, il batterio Escherichia Coli è stato ri-sequenziato con un’accuratezza del 99.9999%. Leggere il genoma umano tramite questa tecnica non sarà possibile ancora per un po’, ma secondo le previsioni si potrà probabilmente sequenziare l’intero genoma di un individuo in poco meno di un’ora ad un costo decisamente contenuto.

Infographic showing how Cost per Genome dropped during the transition from I generation technologies to the introduction of NGS technologies Roche/454 and Illumina/Solexa in 2007. III generation technologies are going to reduce the costs even further. Source: NIH

Source:

The sequence of sequencers: The history of sequencing DNA

 

[wl_timeline][wl_vocabulary]