I dati nel DNA, ovvero il mondo in una scatola per scarpe
Nel 2016, un post firmato da Thomas Barnet jr. sul blog Cisco titolava “L’era degli zettabyte è ufficialmente iniziata“. Di cosa stiamo parlando?
L’articolo si riferisce al traffico mondiale di internet misurato da Cisco, che nel 2016 aveva appunto superato lo ZB1, e prevedeva il superamento dei 3 ZB per il 2021. Ma il traffico è ancora niente in confronto ai dati generati (avevano superato lo ZB già nel 2012), e IDC, nel suo studio Data Age 2025 indicava il superamento dei 20 ZB già quest’anno, e una crescita esponenziale che porterebbe a sfondare i 160 ZB per il 2025!

Un diluvio di dati
Stiamo generando un diluvio di dati, e stiamo rapidamente raggiungendo il limite di capacità della tecnologia attuale di gestirli. Qualcuno potrebbe obiettare che una buona parte dei dati generati sono spazzatura, e potrebbero venire facilmente eliminati senza nessun problema, ma è difficile capire oggi cosa potrebbe diventare rilevante in futuro, e certamente non può essere considerata una soluzione.
Big Data è già oggi una sfida in termini di capacità di calcolo, ma diventerà presto una sfida anche in termini di spazio con le tecnologie di oggi: i supporti SSD hanno portato qualche miglioria in termini di performance rispetto agli Hard Disk magnetici, ma per quanto riguarda lo storage a lungo termine siamo ancora fermi ai nastri magnetici.
La soluzione viene dalla genetica ?
Nel 2007 G.M. Skinner, K. Visscher e M. Mansuripur pubblicavano sul Journal of Bionanoscience un articolo abbastanza rivoluzionario, intitolato Biocompatible Writing of Data into DNA, nel quale utilizzavano un semplice schema di memorizzazione basato sul DNA. In questo lavoro, il gruppo dimostrava la possibilità di “scrivere” informazione in filamenti di DNA, e di leggerla utilizzando appositi gel. Il metodo era ancora rudimentale ma la via era segnata.

Sequenziamento e Sintesi
Il processo di lettura del DNA, meglio noto come “sequenziamento” ha avuto una spinta notevole dal lavoro del NHGRI nell’ambito del Progetto Genoma Umano, giunto a completamento nel 2003.

Il DNA è composto da 4 basi: Adenina, Guanina, Timina e Citosina. Il “trucco” è che le uniche combinazioni sono tra Adenina e Timina, e tra Citosina e Guanina, permettendo così la ricostruzione della sequenza tramite l’introduzione di una base alla volta. Il processo viene ripetuto milioni di volte. Ora, associando combinazioni di 0 e 1 a ciascuna base si ottiene un codice a 2 bit: 00, 01, 10, 11. Et voilà, abbiamo uno schema di digitalizzazione.
Perché proprio il DNA?
I vantaggi sono molteplici:
- Densità: il DNA è soprattutto incredibilmente denso. Già lo scorso anno era stata superata la soglia dei 200 PetaBytes (1000 TB) per grammo. Si stima che tutti i dati presenti oggi su Internet potrebbero essere contenuti facilmente su DNA nello spazio di una scatola per scarpe(!).
- Fedeltà: il recupero dei dati può essere virtualmente error-free data l’accuratezza dei metodi di replicazione del DNA.
- Sostenibilità: l’energia richiesta per mantenere informazione codificata su DNA è una piccola frazione di quella richiesta dai moderni data center.
- Longevità: il DNA è una molecola stabile che può durare anche migliaia di anni senza degradarsi.
Le tecnologie di sequenziamento sono oramai molto avanzate, e oggi esistono addirittura sequenziatori tascabili USB (vedi sotto), e i dispositivi più avanzati permettono l’esecuzione di molte analisi in parallelo.

La scrittura (o sintesi) di DNA invece richiede di “attaccare” assieme una base dopo l’altra in un ambiente controllato, un processo chimico molto lento che risale addirittura al 1981. Comunque, data la richiesta di mercato aziende come Twist Bioscience e DNA Script hanno sviluppato innovative tecnologie di sintesi, basate rispettivamente su silicio e sintesi enzimatica, che promettono volumi centinaia di volte superiori a quelli tradizionali. Inoltre, è recentissima la presentazione da parte di ricercatori al dipartimento di Synthetic Biology Informatics del JBEI di una nuova metodologia di sintesi che potrebbe portare alla realizzazione di stampanti 3D di DNA.
All the World’s Data in DNA | Dina Zielinski | TEDxVienna
Nel decennio trascorso dal lavoro di Skinner & coll. la ricerca ha fatto passi da gigante: nel 2015 la Microsoft e il MISL dell’Università di Washington hanno creato il progetto DNA Storage, stabilendo nel 2016 un record immagazzinando e recuperando con successo 200 MB in filamenti di DNA. Nel 2017, in un altro importante lavoro, Y. Erlich e D. Zielinski, hanno immagazzinato e recuperato 2 MB di materiale con una densità di oltre 200 PetaByte per grammo, sfiorando il limite teorico postulato da Shannon, tramite l’utilizzo di un algoritmo “a fontana”2.
Ad oggi il processo di sintesi/sequenziamento di DNA è ancora costoso (si parla di qualche migliaio di dollari per MB in scrittura e sui 200 per la lettura), tuttavia questo è destinato a scendere, sia in vista della rapidissima evoluzione del settore, dovuto alla richiesta esplosiva di DNA ingegnerizzato, sia perché per la memorizzazione dei dati si può utilizzare DNA sintetizzato ad-hoc invece di quello biologico. A questo riguardo, si prevede che l’estensivo utilizzo di tecnologie di editing come CRISPR/Cas9, TALEN e ZNF nella manipolazione genetica diventerà il principale driver della crescita di questo mercato.

Applicazioni
L’uso di DNA per la digitalizzazione non è quindi qualcosa che appartiene alla fantascienza, ma si iniziano già a vedere i primi prototipi di applicazioni.
- Crittografia: Carverr, una startup statunitense ha sviluppato un metodo per criptare dati nelle molecole di DNA, e offre un servizio di crittografia delle password in DNA per 1000 $.
- Cloud: è solo dello scorso marzo la pubblicazione dell’articolo di Microsoft dove dimostrava la capacità di leggere DNA tramite accesso casuale3, aumentando drasticamente l’efficienza del processo di sequenziamento. Grazie a progressi come questo e a quelli citati sopra la Microsoft sembra iniziare a prendere in considerazione il DNA per il backup su cloud per il futuro, e sta collaborando attivamente con Twist Biosciences. I costi sono ancora molto alti ma a Redmond sono convinti che questo ostacolo diventerà facilmente superabile se ci sarà sufficiente domanda dall’industria informatica.
Note
1. Uno zettabyte equivale a circa un miliardo di Terabyte (TB). Se consideriamo che 1 TB è più o meno la dimensione di un Hard Disk medio oggi, è facile rendersi conto della dimensione di questo traffico.
2. Un codice a fontana è un modo di prendere dei dati (es. un file) e trasformarlo in un numero effettivamente illimitato di pezzetti codificati, in modo che il file originario possa venire riassemblato da un insieme qualunque di questi pezzetti, a patto che il totale sia leggermente superiore alla dimensione originaria. Quello che rende questo tipo di algoritmo notevole è che permette di inviare informazioni attraverso canali “rumorosi” senza richiedere al ricevente di inviare feedback sui pacchetti mancanti. In altre parole, avendo un file di 10 MB, al ricevente è sufficiente ricevere 11 MB di pezzetti qualunque per essere sicuro di poter riassemblare il file.
3. Per accesso casuale in informatica si intende la capacità di accedere a qualsiasi locazione del supporto senza dover necessariamente passare per le locazioni precedenti (accesso seriale).
Links
An Interactive Timeline of the Human Genome
Wikipedia: DNA Digital Storage
Storage
Random access in large-scale DNA data storage
DNA data storage closer to becoming reality
Microsoft and University of Washington researchers set record for DNA storage
How DNA could store all the world’s data
Storing data in DNA brings nature into the digital universe
DNA storage: a new method for storing digital information
Will synthetic DNA push out Ledger and Trezor from the market?
Sintesi e Sequenziamento
DNA EXTRACTION WITH A 3D-PRINTED CENTRIFUGE
REVERSE ENGINEERING A DNA SEQUENCER
New Research Could Lead to DNA 3D Printer
DNA Fountain enables a robust and efficient storage architecture (pdf)
MinION: A complete DNA sequencer on a USB stick
Applicazioni
Bitcoin fanatics are storing their cryptocurrency passwords in DNA
3D Printing May Be the Key to Affordable Data Storage Using DNA
Damn Cool Algorithms: Fountain Codes
Andrea lavora nel campo dell’IT da quasi 20 anni coprendo un po’ tutto, da sviluppo a business analysis, alla gestione di progetti.
Oggi possiamo dire che è uno gnomo spensierato, appassionato di Neuroscienze, Intelligenza Artificiale e fotografia.