小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

DNA數(shù)字信息存儲(chǔ)的研究進(jìn)展

 昵稱m5Gu5 2021-07-21
來(lái)源: 合成生物學(xué)期刊
作者:董一名,孫法家,武瑞君,錢(qián)瓏

摘 要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)字化信息存儲(chǔ)改變了我們的生活。信息正在以越來(lái)越快的速度產(chǎn)生著,但與此伴生的,是如何有效存儲(chǔ)數(shù)據(jù)的問(wèn)題。諸如磁盤(pán)、硬盤(pán)、閃存等磁學(xué)或光學(xué)等傳統(tǒng)存儲(chǔ)介質(zhì)已經(jīng)逐漸不能滿足全世界范圍內(nèi)數(shù)據(jù)存儲(chǔ)的需要。DNA分子憑借其穩(wěn)定性、高存儲(chǔ)密度和低維護(hù)成本,有望成為實(shí)用的新型信息存儲(chǔ)介質(zhì)。本文首先介紹了利用DNA分子進(jìn)行數(shù)據(jù)存儲(chǔ)的工作流程,繼而介紹了DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域的研究歷史和研究進(jìn)展,包括存儲(chǔ)方式、讀取方式、編碼方式等。為實(shí)現(xiàn)DNA信息存儲(chǔ),通過(guò)信息編碼將二進(jìn)制信息轉(zhuǎn)換成DNA序列信息;DNA合成實(shí)現(xiàn)信息寫(xiě)入;最后通過(guò)基因測(cè)序獲取序列信息,進(jìn)而進(jìn)行信息解碼得到原始信息。而現(xiàn)代分子生物學(xué)技術(shù)的發(fā)展,尤其是DNA合成和測(cè)序技術(shù)的飛躍,使DNA分子大規(guī)模存儲(chǔ)人工數(shù)據(jù)逐漸成為現(xiàn)實(shí)。之后,對(duì)比了DNA分子相對(duì)于傳統(tǒng)數(shù)據(jù)存儲(chǔ)介質(zhì)的優(yōu)劣,介紹了基于DNA分子的數(shù)據(jù)存儲(chǔ)的風(fēng)險(xiǎn)與挑戰(zhàn),如數(shù)據(jù)安全性、信息讀寫(xiě)的速度和成本等。最后,對(duì)DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域未來(lái)研究的方向進(jìn)行了展望,介紹了一些與該領(lǐng)域具備交叉潛力的新興生物技術(shù)領(lǐng)域,如“DNA條形碼”“DNA折紙”。

圖片

全 文

隨著人類(lèi)對(duì)世界的觀測(cè)向著更高精度和更大廣度發(fā)展,多樣化、微型化、動(dòng)態(tài)化傳感器的發(fā)明和普及,人類(lèi)數(shù)據(jù)量保持指數(shù)甚至超指數(shù)形式增長(zhǎng),“天文數(shù)字”這一概念被不斷顛覆。如今,在科研領(lǐng)域,觀測(cè)太空的阿塔卡瑪大型毫米陣列每天會(huì)增加2 TB的觀測(cè)數(shù)據(jù);在健康領(lǐng)域,數(shù)字人體和數(shù)字醫(yī)療涵蓋了個(gè)人健康數(shù)據(jù)、臨床大數(shù)據(jù)和運(yùn)營(yíng)數(shù)據(jù)各種類(lèi)型,全球醫(yī)療保健數(shù)據(jù)已達(dá)到2.26 ZB;此外,金融、工業(yè)生產(chǎn)、安防等領(lǐng)域的網(wǎng)絡(luò)化、實(shí)時(shí)化已成為現(xiàn)代社會(huì)的標(biāo)配,這些領(lǐng)域的數(shù)據(jù)以人口為基數(shù)、以秒為時(shí)間單位不斷積累。依據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation, IDC)的估計(jì),2025年全球數(shù)據(jù)產(chǎn)出量將會(huì)達(dá)到175 ZB(1 ZB≈1.18×1021 B),而當(dāng)前主流存儲(chǔ)介質(zhì)的生產(chǎn)已經(jīng)不堪重負(fù)。海量數(shù)據(jù)的拷貝和傳輸也面臨挑戰(zhàn)。按民用光纖傳輸速率1 Gbps估計(jì),PB(1PB≈106 GB)量級(jí)的數(shù)據(jù)交流花費(fèi)的時(shí)間遠(yuǎn)長(zhǎng)于物理運(yùn)輸,而后者產(chǎn)生了大量非必要成本。除此之外,現(xiàn)有存儲(chǔ)介質(zhì)不可避免地隨著讀寫(xiě)次數(shù)和自然時(shí)間發(fā)生損耗,導(dǎo)致每年數(shù)以億計(jì)的信息維護(hù)費(fèi)用。因此,實(shí)用的新型數(shù)據(jù)存儲(chǔ)介質(zhì)亟待開(kāi)發(fā),以應(yīng)對(duì)信息爆炸式增長(zhǎng)的挑戰(zhàn)。
脫氧核糖核酸(DNA)是生物體用于存儲(chǔ)遺傳信息的載體。通過(guò)A、T、C、G四個(gè)堿基,DNA存儲(chǔ)了物種的全部遺傳信息并且穩(wěn)定遺傳給后代,我們的身高、膚色、虹膜等信息都被記錄在小小的細(xì)胞中,基因組和中心法則稱得上是自然界最精妙絕倫的信息存儲(chǔ)與傳遞算法。DNA同樣具有存儲(chǔ)數(shù)字信息的潛力。數(shù)據(jù)可轉(zhuǎn)化為堿基的線性順序,編碼在DNA這種新型信息存儲(chǔ)介質(zhì)中。最引人注目的是DNA的信息存儲(chǔ)容量和存儲(chǔ)密度,研究表明,DNA信息存儲(chǔ)密度可以達(dá)到1019 bit/cm3,是硬盤(pán)的106倍。此外,DNA穩(wěn)定性強(qiáng),存儲(chǔ)時(shí)間長(zhǎng),并且無(wú)需頻繁維護(hù)。化石中的DNA平均半衰期估計(jì)為521年;利用一些特殊的材料如合成二氧化硅或者凝膠則可以保存更久的時(shí)間。利用生物化學(xué)手段可以便利地對(duì)信息進(jìn)行復(fù)制(PCR方法)、切割(限制性內(nèi)切核酸酶)和粘貼(DNA連接酶)等。這些特性使得DNA分子成為一種理想的新型數(shù)據(jù)存儲(chǔ)介質(zhì)。


圖片

1  DNA數(shù)據(jù)存儲(chǔ)的研究進(jìn)展


    圖片   



1.1  DNA信息存儲(chǔ)流程簡(jiǎn)述

使用DNA分子進(jìn)行信息存儲(chǔ),可以分為信息編碼、DNA合成(寫(xiě)入)、DNA測(cè)序(讀?。┖托畔⒔獯a四個(gè)步驟,如圖1所示。

圖片

圖1  DNA信息存儲(chǔ)流程


首先必須將信息轉(zhuǎn)換為DNA分子中4種堿基的序列。在信息科學(xué)領(lǐng)域,不同的數(shù)據(jù)類(lèi)型有不同的編碼和壓縮算法,常用的算法有霍夫曼編碼、算術(shù)編碼、字典編碼等。此外,對(duì)于DNA分子而言,在合成、復(fù)制、測(cè)序的過(guò)程中都可能發(fā)生錯(cuò)誤,物理冗余和邏輯冗余可以在信息失真的情況下恢復(fù)原始數(shù)據(jù),也就是糾錯(cuò)碼。圖2分別展示了信息直接轉(zhuǎn)換、線性分組碼、噴泉碼和卷積碼的原理。

圖片

圖2  DNA存儲(chǔ)研究中使用的信息編碼方法(前向糾錯(cuò)體系)

[(a) 直接轉(zhuǎn)換,不包含糾錯(cuò)方案。在這種方案中,數(shù)據(jù)被讀取為數(shù)字流,然后轉(zhuǎn)換為DNA序列。例如,Church等和Goldman等分別將二進(jìn)制數(shù)字流和三進(jìn)制數(shù)字流中的每一位轉(zhuǎn)換為一個(gè)DNA堿基。(b) 線性分組碼,即通過(guò)線性運(yùn)算,從原始信息(信息碼元)產(chǎn)生用于糾錯(cuò)的冗余(稱為“校驗(yàn)碼元”或“監(jiān)督碼元”)。在解碼時(shí),與生成矩陣相對(duì)應(yīng)的校驗(yàn)矩陣可以用于校驗(yàn)接收到的信息中是否包含錯(cuò)誤,并進(jìn)行糾正。(c) 噴泉碼,即將原始信息轉(zhuǎn)換為大量較短的信息,這些較短的信息并非原始信息的一部分,而是將原始信息中的符號(hào)通過(guò)特定的分布進(jìn)行異或運(yùn)算得到的。在解碼時(shí),只要獲得了足夠數(shù)量的短信息,就可以恢復(fù)原始信息。(d) 卷積碼,即“有記憶”的編碼方案。在編碼用于傳輸?shù)姆?hào)時(shí),不僅需要處理當(dāng)前的信息符號(hào),還要對(duì)當(dāng)前位置之前的數(shù)個(gè)信息符號(hào)進(jìn)行運(yùn)算]

在編碼之后,進(jìn)行DNA合成,即寫(xiě)入。三代DNA合成技術(shù)——化學(xué)合成法(固相亞磷酰胺化學(xué)法)、微陣列DNA合成法和酶合成法的演化大大減少了DNA合成的時(shí)間和成本。另外,基因組裝和編輯技術(shù)的發(fā)展讓我們可以靈活而準(zhǔn)確地改變遺傳信息,并在活細(xì)胞中進(jìn)行信息的處理和儲(chǔ)存,為DNA信息存儲(chǔ)的發(fā)展提供了有利的條件。
信息的讀取依靠基因測(cè)序技術(shù)。自1977年第一代DNA測(cè)序技術(shù)(Sanger法)出現(xiàn)以來(lái),測(cè)序技術(shù)已獲得了巨大的發(fā)展。相比于最初,其成本下降了十萬(wàn)倍。通過(guò)測(cè)序恢復(fù)堿基序列,根據(jù)編碼原則可以預(yù)判信息恢復(fù)能力。在得到DNA序列信息之后,將堿基序列重新轉(zhuǎn)換為二進(jìn)制序列,此后,再利用編碼的糾錯(cuò)原理將序列自動(dòng)糾錯(cuò),就可以得到原本的數(shù)字信息。

1.2  DNA信息存儲(chǔ)發(fā)展史

關(guān)于DNA分子的認(rèn)知始于19世紀(jì)70年代 Miescher和Kossel等的研究,然而直到1953年Watson和Crick在Nature上發(fā)表了“Molecular Structures of Nucleic Acids”一文,人們才對(duì)DNA分子的結(jié)構(gòu)有了清晰的認(rèn)識(shí)。同一時(shí)期Avery等和Hershey等的研究證實(shí)了DNA分子是生物體存儲(chǔ)遺傳信息的載體。后續(xù)的一些研究使人們認(rèn)識(shí)到,生物體的遺傳信息就存儲(chǔ)在組成DNA分子的4種核苷酸的線性排列中。4種堿基的特定排列蘊(yùn)藏了生物的遺傳信息。
這些研究成果自然而然引發(fā)了使用DNA分子存儲(chǔ)人工數(shù)據(jù)的猜想和嘗試。然而,受限于當(dāng)時(shí)尚不成熟的DNA合成和測(cè)序技術(shù),這些嘗試未能獲得成功。直到1996年,Davis才將包含35個(gè)像素點(diǎn)的黑白圖像信息編碼到DNA分子,導(dǎo)入到大腸桿菌中并成功讀取出來(lái)。到了2001年,Bancroft等將《雙城記》開(kāi)篇的兩句名言編碼到了DNA分子中,使用的方法與DNA編碼蛋白質(zhì)序列的“密碼子”方法類(lèi)似。在2012年和2013年,Nature和Science分別刊發(fā)了哈佛醫(yī)學(xué)院Church等和歐洲生物信息研究所Goldman等在DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域的研究成果。與早期研究不同,兩組研究都存儲(chǔ)了可觀的數(shù)據(jù)量。Church等的研究在DNA分子中存儲(chǔ)了659 KB的數(shù)據(jù),而Goldman等存儲(chǔ)了739 KB。這兩項(xiàng)研究的成功有賴于DNA合成和測(cè)序技術(shù)的巨大進(jìn)步,使得合成與讀取數(shù)以萬(wàn)計(jì)的DNA分子成為可能。
在這兩項(xiàng)研究之后,DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域的新進(jìn)展如雨后春筍般涌現(xiàn)出來(lái)。在2015年和2016年,Grass等和Blawat等的兩項(xiàng)研究把信息科學(xué)領(lǐng)域的“前向糾錯(cuò)碼”引入DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域,使在合成和測(cè)序過(guò)程中發(fā)生錯(cuò)誤時(shí),信息依然可以被恢復(fù)出來(lái),從而提升了使用DNA分子進(jìn)行數(shù)據(jù)存儲(chǔ)的可靠性。2016年,Bornholt等設(shè)計(jì)實(shí)現(xiàn)了DNA存儲(chǔ)體系中數(shù)據(jù)的“隨機(jī)訪問(wèn)”(random access)。2017年,Erlich等將“噴泉碼”引入了DNA編碼體系中,稱為“DNA噴泉”,實(shí)現(xiàn)了較高的數(shù)據(jù)存儲(chǔ)密度。同年,Shipman等將一部電影信息通過(guò)CRISPR技術(shù)編碼到了活細(xì)胞中。2018年,Organick等在DNA分子中存儲(chǔ)了多達(dá)200 MB的數(shù)據(jù),實(shí)現(xiàn)了大規(guī)模體系中的隨機(jī)訪問(wèn),并嘗試使用單分子測(cè)序(single molecule sequencing,SMS)進(jìn)行數(shù)據(jù)的讀取和恢復(fù)。
2020年,Erlich和Grass將噴泉碼運(yùn)用于信息存儲(chǔ),他們提出了一個(gè)“萬(wàn)物皆可存儲(chǔ)DNA信息”概念(DNA-of-things,DoT)。作者將3D打印的兔子——斯坦福兔子的設(shè)計(jì)藍(lán)本信息轉(zhuǎn)換為DNA序列,合成寡核苷酸片段,然后將這些短片段封裝在大小為160 nm的二氧化硅納米顆粒中,與可降解熱塑性聚酯混合用于3D打印。信息的讀取和復(fù)制也非常簡(jiǎn)便,從兔子耳朵處剪下一小塊進(jìn)行溶解,就可以得到其中的DNA,進(jìn)而進(jìn)行測(cè)序和擴(kuò)增,得到的信息還可以進(jìn)行下一代兔子的3D打印。最終,研究人員完美地復(fù)制和打印了五代兔子,展示了DNA作為信息存儲(chǔ)介質(zhì)的穩(wěn)定性和保真性。此外,他們還將1.4 MB大小的視頻編碼存儲(chǔ)到眼鏡的樹(shù)脂玻璃中。在這項(xiàng)研究中,他們同樣使用了“DNA噴泉”,即使用LT碼應(yīng)對(duì)錯(cuò)誤。
2020年,Press等開(kāi)發(fā)出了一種能夠處理DNA合成和測(cè)序錯(cuò)誤中出現(xiàn)的增刪(indel)錯(cuò)誤的DNA編碼算法,稱為“HEDGES”。這種算法使用了RS碼和卷積碼進(jìn)行編碼,并使用樹(shù)結(jié)構(gòu)進(jìn)行解碼?;贖EDGES編碼,他們合成了5865條長(zhǎng)度為300 bp的寡核苷酸,這些DNA分子之后被人工引入了突變和增刪錯(cuò)誤并在Illumina平臺(tái)上測(cè)序。解碼結(jié)果表明,在犧牲一定編碼密度的情況下,HEDGES能夠處理總計(jì)約1.2%的增刪錯(cuò)誤。這種算法為應(yīng)對(duì)更復(fù)雜的DNA錯(cuò)誤類(lèi)型提供了借鑒,從而保障DNA分子存儲(chǔ)信息的穩(wěn)健性。與傳統(tǒng)的信息存儲(chǔ)方式利用磁性存儲(chǔ)介質(zhì)(磁盤(pán))、光學(xué)存儲(chǔ)介質(zhì)(光盤(pán))和電子存儲(chǔ)介質(zhì)(內(nèi)存、U盤(pán))相比,DNA讀寫(xiě)速度慢并且過(guò)程煩瑣。很多研究人員致力于實(shí)現(xiàn)全自動(dòng)DNA信息存儲(chǔ)。微軟公司和華盛頓大學(xué)搭建了一臺(tái)基于柱式合成和三代測(cè)序的全自動(dòng)DNA存儲(chǔ)和讀取設(shè)備,存儲(chǔ)與讀取“hello”的整個(gè)過(guò)程需要21 h。盡管還有很長(zhǎng)的路要走,但信息存儲(chǔ)和讀取的自動(dòng)化對(duì)于DNA存儲(chǔ)的產(chǎn)業(yè)化意義巨大。
可以看出,研究人員將DNA分子存儲(chǔ)領(lǐng)域與DNA合成與測(cè)序技術(shù)、細(xì)胞生物學(xué)與分子生物學(xué)技術(shù)、信息科學(xué)與通信技術(shù)等領(lǐng)域不斷交叉融合,為這一領(lǐng)域的未來(lái)描繪出更多的可能性,不斷提高DNA分子的存儲(chǔ)潛力,使得DNA數(shù)據(jù)存儲(chǔ)越來(lái)越接近于生產(chǎn)和生活實(shí)際。


圖片

2  DNA信息存儲(chǔ)的優(yōu)勢(shì)


    圖片   


2.1  存儲(chǔ)密度

磁性存儲(chǔ)介質(zhì)利用磁性介質(zhì)的電磁效應(yīng)進(jìn)行信息存儲(chǔ)。光學(xué)存儲(chǔ)介質(zhì)將信息刻錄在光盤(pán)表面的凹槽中,再通過(guò)激光讀取,數(shù)據(jù)量越大要求激光的精度也越高。物理設(shè)備的工作分辨率決定了這些傳統(tǒng)介質(zhì)的極限密度。而碳基生物分子的存儲(chǔ)密度在分子尺度,與傳統(tǒng)介質(zhì)相比,具備天然的優(yōu)勢(shì)。
理想情況下,DNA分子的存儲(chǔ)密度可達(dá)約460 EB/g,這意味著僅需要數(shù)克的DNA分子即可存儲(chǔ)全世界一年所產(chǎn)生的信息。DNA具有雙螺旋立體結(jié)構(gòu),單位空間的數(shù)據(jù)密度非常高。由于不能無(wú)限地緊密堆積,體積密度更能夠代表DNA分子實(shí)際數(shù)據(jù)存儲(chǔ)能力。據(jù)估算,每立方厘米的DNA分子可以存儲(chǔ)大約1 EB的信息,這一密度是當(dāng)前存儲(chǔ)密度最高的介質(zhì)(閃存)的1000倍,是硬盤(pán)數(shù)據(jù)存儲(chǔ)密度的百萬(wàn)倍。即便因?yàn)榉庋b、冗余等實(shí)際因素?zé)o法實(shí)現(xiàn)最大存儲(chǔ)潛力,其可用的存儲(chǔ)密度依然遠(yuǎn)遠(yuǎn)高于當(dāng)前主流的數(shù)據(jù)存儲(chǔ)介質(zhì)。
天然DNA分子包含四種堿基,因此每一個(gè)堿基最多可以存儲(chǔ)2 bit的信息。然而,也有一部分研究工作試圖擴(kuò)展堿基系統(tǒng),即使用DNA分子中的四種天然堿基之外的“人工堿基”或“非天然堿基”來(lái)存儲(chǔ)信息,從而提高DNA分子的信息存儲(chǔ)密度。非天然堿基的工作起源于20世紀(jì)80年代,而在近幾年有了較大的突破,目前已經(jīng)實(shí)現(xiàn)了8個(gè)堿基的系統(tǒng)。
除了使用額外的非天然堿基,也有一些研究使用“簡(jiǎn)并堿基”來(lái)擴(kuò)展DNA分子的存儲(chǔ)密度。在2019年,有幾項(xiàng)不同的研究成功使用簡(jiǎn)并堿基進(jìn)行數(shù)據(jù)存儲(chǔ),并且提升了存儲(chǔ)密度。具體而言,簡(jiǎn)并堿基將DNA序列中每個(gè)位置的序列空間連續(xù)化,即表示為四種堿基的混合體系。例如,Anavy 等在其研究中定義了兩個(gè)新的堿基符號(hào):M,是等量A和T的混合體;K,是等量G和T的混合體。加入這兩個(gè)符號(hào)之后,DNA分子中的每一位就包含了6個(gè)“堿基”,因而可以容納2.58 bit的信息。這一堿基體系可以繼續(xù)擴(kuò)充,以包含更多的“簡(jiǎn)并堿基”符號(hào),從而進(jìn)一步提升DNA分子的存儲(chǔ)潛力。在Anavy等的研究中,他們嘗試使用更大的堿基空間存儲(chǔ)較小規(guī)模的信息(22.5 B),并實(shí)現(xiàn)了每合成輪4.29 bit的存儲(chǔ)密度。Choi等也提出了類(lèi)似的思路,并使用包含15個(gè)“堿基”的系統(tǒng)存儲(chǔ)了854 B的信息,實(shí)現(xiàn)了每個(gè)DNA 3.37 bit的存儲(chǔ)密度。
除了DNA之外,其他碳基存儲(chǔ)介質(zhì)也展現(xiàn)了信息存儲(chǔ)能力。中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所的陶虎教授課題組發(fā)明了基于蠶絲蛋白的生物存儲(chǔ)器,每平方英寸可以存儲(chǔ)64 GB數(shù)據(jù)信息(1平方英寸=6.4516×10?4 m2),并且可重復(fù)擦寫(xiě)。蠶絲蛋白和DNA相似,可耐受異常濕度、輻射和磁場(chǎng)等環(huán)境。蠶絲蛋白也可以用于存儲(chǔ)生物體DNA等生物樣品,有望未來(lái)和DNA介質(zhì)結(jié)合,用于數(shù)字存儲(chǔ)。盡管其存儲(chǔ)密度依舊受限于光學(xué)寫(xiě)入設(shè)備的分辨率,但展現(xiàn)了學(xué)術(shù)界對(duì)于碳基介質(zhì)用作信息存儲(chǔ)的認(rèn)可。而代謝分子(糖類(lèi)、氨基酸等)更小,也可以用作信息存儲(chǔ)。布朗大學(xué)Kennedy等受DNA存儲(chǔ)的啟發(fā),利用代謝分子液滴在金屬板點(diǎn)陣列存儲(chǔ)圖片等信息。與簡(jiǎn)并堿基的思想類(lèi)似,他們利用對(duì)代謝組分分布的測(cè)量實(shí)現(xiàn)了更高維度空間中的信息編碼。
盡管碳基存儲(chǔ)尤其DNA在密度上有很大優(yōu)勢(shì),考慮到隨機(jī)訪問(wèn)所需的稀溶液條件和分子擴(kuò)散速率,一個(gè)1 L的DNA存儲(chǔ)池中可容納的信息量被限制在TB~ZB量級(jí)。因此,一個(gè)值得關(guān)注的概念是“Storage-on-Chip”。存儲(chǔ)硬件體系的設(shè)計(jì)需要適配這些實(shí)際考量,超大規(guī)模的數(shù)據(jù)存儲(chǔ)離不開(kāi)存儲(chǔ)體系的創(chuàng)新。

2.2  數(shù)據(jù)維護(hù)

傳統(tǒng)的數(shù)據(jù)存儲(chǔ)介質(zhì)總會(huì)自發(fā)地發(fā)生損耗,導(dǎo)致信息損壞或丟失。硬盤(pán)和閃存能夠存留信息的年限不超過(guò)十幾年。在傳統(tǒng)數(shù)據(jù)存儲(chǔ)介質(zhì)中維護(hù)大量數(shù)據(jù)需要極其高昂的成本。例如,如果一個(gè)數(shù)據(jù)中心要在磁帶上存儲(chǔ)109 GB數(shù)據(jù),需要高達(dá)十億美元和十年以上的時(shí)間來(lái)建造和維護(hù),以及上億度電的耗費(fèi)。
而DNA分子在適當(dāng)?shù)臈l件下具有極高的穩(wěn)定性,可以保障存儲(chǔ)在其中的信息不會(huì)受損。地質(zhì)學(xué)家手中的化石為DNA分子的數(shù)據(jù)存留能力提供了有力的證明——有時(shí)可以獲取甚至數(shù)十萬(wàn)年前化石中的DNA分子并讀取其序列信息。如果將DNA分子保存在合適的環(huán)境中,其序列甚至可以存留更長(zhǎng)的時(shí)間。例如,Grass等將固態(tài)DNA分子封裝在二氧化硅中,表現(xiàn)出了比純固態(tài)DNA粉末和其他存儲(chǔ)介質(zhì)更好的存留特性。他們推算出了封裝在二氧化硅小球中的DNA分子的一級(jí)降解動(dòng)力學(xué)活化能,并由此推測(cè)在相同條件下其可在9.4 ℃下存留2000年,或在?18 ℃下存留200萬(wàn)年。
同時(shí),相比傳統(tǒng)介質(zhì),使用DNA分子進(jìn)行數(shù)據(jù)存儲(chǔ)幾乎不需要維護(hù)成本。使用DNA分子存儲(chǔ)109 GB數(shù)據(jù)用電量不足0.1 W。如此之低的維護(hù)成本使得DNA分子尤其適用于存儲(chǔ)大規(guī)模不需要經(jīng)常訪問(wèn)的“冷數(shù)據(jù)”。

2.3  體內(nèi)信息存儲(chǔ)潛力

迄今為止,大多數(shù)DNA存儲(chǔ)的嘗試都是在體外進(jìn)行的,例如DNA寡核苷酸池(oligo pool),或者對(duì)DNA片段進(jìn)行物理封裝以進(jìn)一步增強(qiáng)存儲(chǔ)穩(wěn)定性(圖3)。在當(dāng)前的技術(shù)水平下,體外存儲(chǔ)在存儲(chǔ)成本(短片段存儲(chǔ)、無(wú)需連接成長(zhǎng)片段,也無(wú)需導(dǎo)入質(zhì)粒或者基因組中)、DNA刻寫(xiě)(活細(xì)胞DNA在刻寫(xiě)時(shí)需要避開(kāi)功能基因及其相關(guān)序列等)、DNA讀?。ǘ鷾y(cè)序技術(shù)比較成熟)和穩(wěn)定性(活細(xì)胞DNA突變)等方面有較強(qiáng)的優(yōu)勢(shì)。

圖片

圖3  DNA信息存儲(chǔ)的載體


盡管如此,越來(lái)越多科學(xué)家將目光投向了DNA體內(nèi)存儲(chǔ)?;罴?xì)胞的基因組DNA由于其耐久性和生物功能相容性,已成為信息存儲(chǔ)的另一潛在形式。與體外DNA存儲(chǔ)相比,體內(nèi)存儲(chǔ)利用了細(xì)胞自身DNA復(fù)制和校對(duì)的機(jī)制,也提供了微尺度隨機(jī)數(shù)據(jù)訪問(wèn)的實(shí)用手段。除此之外,極端環(huán)境微生物在信息存儲(chǔ)的能耗等方面有很大的發(fā)展空間。
對(duì)于DNA體內(nèi)存儲(chǔ),研究人員首先將視線投向質(zhì)粒(圖3),因其操作簡(jiǎn)便、編輯和寫(xiě)入較簡(jiǎn)單。質(zhì)粒DNA存儲(chǔ)可以追溯到1996年,Davis在大腸桿菌質(zhì)粒中存儲(chǔ)了小維納斯女神“Microvenus”的圖片。此后,很多研究人員將文本、音樂(lè)、圖片信息存儲(chǔ)到了質(zhì)粒上。
但是存儲(chǔ)量和遺傳穩(wěn)定性問(wèn)題限制了質(zhì)粒作為信息存儲(chǔ)載體的應(yīng)用,基因組作為替代選擇成為了新型的體內(nèi)存儲(chǔ)方式。2010年的一項(xiàng)合成生物學(xué)里程碑式研究中,Venter團(tuán)隊(duì)通過(guò)化學(xué)合成法合成了整個(gè)支原體的基因組,并證實(shí)其具有生物活性和復(fù)制能力。此外,他們?cè)谠摵铣苫蚪M中加入了很多“水印信息”,包括作者名字、研究所信息和詩(shī)句等。這也是基因組存儲(chǔ)信息的首次嘗試。2017年,Shipman等通過(guò)CRISPR技術(shù)將“奔跑的馬”五幀視頻存儲(chǔ)到了群體細(xì)胞的基因組中,利用大腸桿菌傳代進(jìn)行數(shù)據(jù)的復(fù)制,證明視頻可以在傳代中比較穩(wěn)定地保存下來(lái)。
基于體內(nèi)DNA存儲(chǔ)的信息保真和信息傳代潛力,研究人員嘗試?yán)肈NA序列信息作為標(biāo)簽,來(lái)跟蹤實(shí)驗(yàn)結(jié)果、信息流動(dòng),甚至進(jìn)行物流追蹤,該技術(shù)統(tǒng)稱為“DNA條形碼”(DNA barcoding)。美國(guó)Springer教授提出了“BMS”技術(shù),通過(guò)設(shè)計(jì)DNA條形碼進(jìn)行組合,并且將其整合到枯草芽孢桿菌和釀酒酵母孢子的基因組中,通過(guò)噴灑轉(zhuǎn)移到接觸的物體上實(shí)現(xiàn)痕跡追蹤。DNA條形碼的識(shí)別,可以利用SHERLOCK、RPA、Cas13a和測(cè)序等方法實(shí)現(xiàn),從而進(jìn)行食品等的物源追蹤,還可以結(jié)合CRISPR技術(shù)追蹤序列,研究腫瘤生長(zhǎng)和癌癥演化等動(dòng)態(tài)過(guò)程。這些概念展示性工作提示了體內(nèi)DNA存儲(chǔ)與細(xì)胞傳感、細(xì)胞處理器等新型生物技術(shù)的可能接口。除了納米物聯(lián)網(wǎng)和疾病檢測(cè),DNA存儲(chǔ)在不加干預(yù)的情況下,具有不可隨意改變和擦寫(xiě)的性質(zhì),這使其天然適用于構(gòu)建防篡改、防偽造和可追溯的“區(qū)塊鏈”數(shù)據(jù)結(jié)構(gòu)。但從信息操作的實(shí)用角度來(lái)講,不可擦寫(xiě)的存儲(chǔ)系統(tǒng)在應(yīng)用領(lǐng)域?qū)⑹艿胶艽笙拗?。在下文中,我們總結(jié)了人們針對(duì)DNA存儲(chǔ)體系中數(shù)據(jù)擦寫(xiě)功能所做出的一些嘗試。
盡管迄今DNA體內(nèi)存儲(chǔ)均以短片段的形式呈現(xiàn),酵母人造染色體、大片段基因組操作等合成生物學(xué)最新進(jìn)展完全可以應(yīng)用于DNA存儲(chǔ)。長(zhǎng)片段DNA體內(nèi)存儲(chǔ)適配于第三代單分子測(cè)序,可能實(shí)現(xiàn)DNA信息實(shí)時(shí)讀取。


圖片

3  DNA數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)


    圖片   


3.1  數(shù)據(jù)安全

數(shù)據(jù)安全是信息儲(chǔ)存和傳輸領(lǐng)域的重要問(wèn)題,它包括信息的完整性、可靠性和機(jī)密性等指標(biāo)。雖然存儲(chǔ)于DNA分子上的信息具有動(dòng)態(tài)穩(wěn)定性,但其擦寫(xiě)、防偽等操作受限于生化反應(yīng)的精確度而無(wú)法達(dá)到100%確定,這對(duì)于具體的應(yīng)用具有兩面性,將在一段時(shí)間內(nèi)促進(jìn)相關(guān)技術(shù)的迭代進(jìn)步。
目前,合成生物學(xué)手段和基因編輯技術(shù)的發(fā)展和應(yīng)用,使DNA分子的改寫(xiě)成為可能。這既有利于DNA存儲(chǔ)走向更廣闊的應(yīng)用場(chǎng)景,也對(duì)數(shù)據(jù)安全的保障提出了更高的要求。在細(xì)胞內(nèi)DNA存儲(chǔ)體系中,我們可以利用一些工具酶實(shí)現(xiàn)信息的擦除和重寫(xiě),例如位點(diǎn)特異性重組酶可以識(shí)別特定的DNA位點(diǎn),進(jìn)而翻轉(zhuǎn)、插入或者切除位點(diǎn)之間的一段DNA。此外,在體外DNA存儲(chǔ)體系中,通過(guò)精心設(shè)計(jì)的生化反應(yīng),也可以實(shí)現(xiàn)信息“擦除”。2020年,Baym和Zhang課題組將真假兩種信息編碼在DNA溶液中,通過(guò)設(shè)計(jì)標(biāo)記鏈并與溶液中的信息進(jìn)行雜交來(lái)區(qū)分信息的真?zhèn)巍鎸?shí)信息可與“真實(shí)標(biāo)記”寡核苷酸進(jìn)行雜交,而錯(cuò)誤信息的標(biāo)記鏈可以阻止DNA鏈的延伸和擴(kuò)增,這樣保證只讀取真實(shí)信息?;贒NA雜交分子的溫度敏感性,作者發(fā)現(xiàn)在25 °C下,DNA信息在存儲(chǔ)65天后可以穩(wěn)定地進(jìn)行讀取,并且推測(cè)DNA在25 °C下的半衰期超過(guò)15年,可以進(jìn)行長(zhǎng)期穩(wěn)定的信息存儲(chǔ);但是在95 °C下DNA雜交分子很快解離,僅加熱5 min,消息就會(huì)被永久擦除。雖然目前受限于操作手段,人們對(duì)DNA存儲(chǔ)的信息擦寫(xiě)研究并不深入,但是隨著技術(shù)的發(fā)展和進(jìn)步,可能出現(xiàn)適用于幾大類(lèi)存儲(chǔ)體系的較為通用的擦寫(xiě)工具。
此外,信息科學(xué)中的加密編碼原則同樣適用于DNA存儲(chǔ)。Grass等從人類(lèi)DNA中生成了80 bit的強(qiáng)密匙,對(duì)存儲(chǔ)在DNA分子中的17 KB數(shù)據(jù)進(jìn)行加密,并成功讀取和恢復(fù)了原始信息。DNA折紙也具備三維加密信息的潛能。上海交通大學(xué)左小磊課題組和中國(guó)科學(xué)院上海應(yīng)用物理研究所樊春海課題組先后利用DNA折紙的精確定位與組裝能力,在存儲(chǔ)方面做出了初步嘗試。在未來(lái),DNA折紙的圖樣多樣性或可用于信息加密等信息安全領(lǐng)域。

3.2  讀寫(xiě)速度和成本

隨著DNA合成技術(shù)的迅猛發(fā)展,人工合成DNA分子的成本持續(xù)下降。然而,如果要存儲(chǔ)大量的信息,需要合成的DNA分子數(shù)量也是龐大的,成為DNA分子信息存儲(chǔ)的主要開(kāi)支。當(dāng)前,使用陣列(高通量)合成DNA的成本約為每堿基0.0001美元。如果每個(gè)堿基存儲(chǔ)1 bit的信息,那么存儲(chǔ)1 TB的信息至少需要8億美元。相比之下,使用磁帶存儲(chǔ)同等規(guī)模數(shù)據(jù)的成本僅為16美元。顯然,合成DNA的高昂成本削弱了DNA分子相比于傳統(tǒng)存儲(chǔ)介質(zhì)的競(jìng)爭(zhēng)力,限制著DNA數(shù)據(jù)存儲(chǔ)進(jìn)入大規(guī)模實(shí)用階段。
微陣列DNA合成技術(shù)更高效、快速,具有更高的成本效用,合成的速度可以達(dá)到每秒幾千堿基。第三代DNA合成技術(shù)以酶合成為基礎(chǔ),雖然還處于發(fā)展初期,但有望大大減少DNA合成的時(shí)間和成本。Lee等給出酶促合成法時(shí)間估計(jì)為每周期40 s,是化學(xué)合成法速度的6倍。化學(xué)合成法使用的亞磷酰胺試劑每周期的成本為0.626美元;而酶促合成法每周期的成本將比亞磷酰胺便宜1000倍以上。一旦酶反應(yīng)系統(tǒng)被微型化,預(yù)計(jì)成本將再減少幾個(gè)數(shù)量級(jí)。
自從1977年第一代DNA測(cè)序技術(shù)(Sanger法)出現(xiàn)以來(lái),測(cè)序技術(shù)已獲得了巨大的發(fā)展,相比于最初的測(cè)序成本下降了100 000倍。目前DNA存儲(chǔ)的主流方式是短片段信息存儲(chǔ)(oligo pool),最合適的讀取方式是二代測(cè)序。二代測(cè)序的核心思想是大規(guī)模平行測(cè)序,一次上樣可并行幾十萬(wàn)到幾百萬(wàn)條DNA分子的序列測(cè)定,這足夠滿足當(dāng)前的DNA存儲(chǔ)規(guī)模的需求。但隨著信息量的不斷增加,二代測(cè)序的運(yùn)行速度(含建庫(kù)、讀取等流程,一輪數(shù)天時(shí)間)僅能勉強(qiáng)滿足冷數(shù)據(jù)讀取的需求。
Helicos公司的Heliscope單分子測(cè)序儀、Pacific Biosciences公司的SMRT單分子測(cè)序技術(shù)和Oxford Nanopore Technologies公司的納米孔單分子技術(shù)和單細(xì)胞基因組測(cè)序技術(shù),被統(tǒng)稱為三代測(cè)序技術(shù),也被稱為“單分子測(cè)序技術(shù)”。在DNA信息存儲(chǔ)的應(yīng)用范疇中,三代測(cè)序技術(shù)對(duì)于數(shù)據(jù)存儲(chǔ)量的擴(kuò)大和實(shí)時(shí)讀取等目標(biāo)的實(shí)現(xiàn)存在巨大的幫助。此外,三代測(cè)序除了消除對(duì)PCR擴(kuò)增的依賴性外,更顯著地增加了讀取長(zhǎng)度并提高了讀取速度,在長(zhǎng)片段數(shù)據(jù)存儲(chǔ)上優(yōu)勢(shì)更大,有著廣泛的應(yīng)用前景。其中的納米孔單分子技術(shù),盡管目前錯(cuò)誤率比其他生化測(cè)序平臺(tái)高,但是在測(cè)序通量、讀取長(zhǎng)度、便攜性等方面獨(dú)具優(yōu)勢(shì)和發(fā)展?jié)摿Α@鏞xford Nanopore Technologies公司開(kāi)發(fā)的三代測(cè)序系列產(chǎn)品,其DNA平均過(guò)孔速率為450 bp/s,袖珍便攜三代測(cè)序MinION有多達(dá)512個(gè)納米孔通道進(jìn)行同時(shí)測(cè)序,而高通量臺(tái)式產(chǎn)品PromethION 48的數(shù)據(jù)通量為7.6 TB(72 h)量級(jí),相當(dāng)于29 MB/s的數(shù)據(jù)讀取速率。
隨著技術(shù)更迭和算法升級(jí),三代測(cè)序或可用于體內(nèi)或體外穩(wěn)定化的長(zhǎng)片段DNA存儲(chǔ)的信息讀取,并與當(dāng)前傳統(tǒng)介質(zhì)的讀取速度(KB/s~GB/s)比肩。目前,已經(jīng)有一些DNA存儲(chǔ)工作嘗試使用三代測(cè)序進(jìn)行數(shù)據(jù)讀取。


圖片

4  總結(jié)和展望


    圖片   


DNA因其普遍存在的耐久性和生物功能兼容性成為人工信息儲(chǔ)存的理想介質(zhì)。從數(shù)據(jù)穩(wěn)定性、傳輸、更迭、維護(hù)、保存等實(shí)用角度來(lái)講,它具備得天獨(dú)厚的優(yōu)勢(shì),在如檔案文件存儲(chǔ)等特定的數(shù)據(jù)存儲(chǔ)領(lǐng)域有可能替代傳統(tǒng)存儲(chǔ)介質(zhì)。
在存儲(chǔ)形式上,體外存儲(chǔ)仍然是目前最常用的存儲(chǔ)形式,體外存儲(chǔ)利用短片段池(oligo pool)進(jìn)行信息存儲(chǔ),主要的讀取方式是二代測(cè)序技術(shù)。二代測(cè)序的核心思想是大規(guī)模平行測(cè)序,其特點(diǎn)是能一次并行幾十萬(wàn)到幾百萬(wàn)條DNA分子的序列測(cè)定,且一般讀取長(zhǎng)度較短,適合體外短片段存儲(chǔ)的信息讀取。但是隨著信息量的不斷增加,二代測(cè)序不能滿足和適應(yīng)其要求。三代測(cè)序技術(shù)盡管錯(cuò)誤率更高,但是對(duì)于更大的數(shù)據(jù)量和實(shí)時(shí)讀取等目標(biāo)有著巨大的應(yīng)用潛力。相對(duì)應(yīng)讀的速度更快,所以在長(zhǎng)片段數(shù)據(jù)存儲(chǔ)上優(yōu)勢(shì)更大。此外,三代測(cè)序除了消除對(duì)PCR擴(kuò)增的依賴性外,顯著地增加了讀取長(zhǎng)度并提高了讀取速度,在DNA信息存儲(chǔ)領(lǐng)域有著廣泛的應(yīng)用前景。
盡管如此,目前仍然存在一些問(wèn)題影響DNA存儲(chǔ)的使用和推廣。首先是寫(xiě)和讀的成本高,但隨著DNA合成和測(cè)序技術(shù)的改善,其成本和準(zhǔn)確性有望得到進(jìn)一步優(yōu)化,使其更好地適用于DNA存儲(chǔ)領(lǐng)域。反之,DNA存儲(chǔ)的快速發(fā)展也將帶動(dòng)合成和測(cè)序技術(shù)的二次飛躍。
其次,在信息編碼和硬件體系上,DNA存儲(chǔ)也將提供持續(xù)的技術(shù)發(fā)展動(dòng)能。編碼算法和DNA生化反應(yīng)體系的聯(lián)合發(fā)展,將主要攻克隨機(jī)讀取、擦寫(xiě)、信息加密等關(guān)鍵問(wèn)題。例如隨機(jī)讀取問(wèn)題,如何高效地從存儲(chǔ)池中讀取某一指定位置的文件是一個(gè)挑戰(zhàn)。目前研究者們正通過(guò)在特定位置加入特定的標(biāo)記或是優(yōu)化檢索算法,以攻克這個(gè)難題。對(duì)于擦寫(xiě)問(wèn)題,新的工具和技術(shù)應(yīng)用將使改寫(xiě)信息成為可能,尤其是合成生物學(xué)和基因組編輯技術(shù)的最新進(jìn)展已經(jīng)展示了在活細(xì)胞中靈活準(zhǔn)確地改變遺傳或人工信息的可能性。天然和工程DNA靶向酶和修飾酶,包括重組酶、逆轉(zhuǎn)錄酶等多功能變體,可以用作DNA存儲(chǔ)系統(tǒng)中的編寫(xiě)模塊。而多樣的信息編碼方法和利用DNA三維結(jié)構(gòu)等方法加密信息,可以保障DNA存儲(chǔ)的信息安全。這些研究有望把DNA存儲(chǔ)從冷數(shù)據(jù)檔案文件存儲(chǔ)的領(lǐng)域中釋放出來(lái),使其觸及更廣泛的數(shù)據(jù)操作領(lǐng)域,例如動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)、新型加密、區(qū)塊鏈等。
最后,活細(xì)胞DNA存儲(chǔ)技術(shù)搭配先進(jìn)的細(xì)胞微處理器技術(shù),可以在小尺度范圍整合數(shù)據(jù)的存儲(chǔ)與決策,即數(shù)據(jù)“存”與“算”的一體化和邊緣化,這個(gè)愿景的實(shí)現(xiàn)將依賴于DNA存儲(chǔ)技術(shù)和細(xì)胞計(jì)算領(lǐng)域的巨大突破。在未來(lái)的超大數(shù)據(jù)時(shí)代,活細(xì)胞DNA存儲(chǔ)或能以醫(yī)療健康為中心進(jìn)行廣泛的應(yīng)用輻射,具備顛覆性技術(shù)的潛能。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多