信息技術(shù)出現(xiàn)并不斷發(fā)展以后,數(shù)據(jù)真正成為了一種新型生產(chǎn)資料,不過,它的爆炸式增長(zhǎng)也讓存儲(chǔ)成為新的挑戰(zhàn),基于硅材料的計(jì)算機(jī)存儲(chǔ)方式逐漸變得難以應(yīng)對(duì)。在此背景下,積極探索 DNA 存儲(chǔ)以作為下一代的數(shù)據(jù)存儲(chǔ)方式意義重大。 DNA 是一種非常穩(wěn)定的分子,半衰期超過 500 年,低溫條件下可保存成千上萬年。而目前的磁或光數(shù)據(jù)存儲(chǔ)系統(tǒng)保存數(shù)據(jù)一般不能超過一個(gè)世紀(jì)。除了穩(wěn)定性,DNA 存儲(chǔ)數(shù)據(jù)的另一大優(yōu)點(diǎn)是存儲(chǔ)密度。DNA 信息存儲(chǔ)密度的數(shù)量級(jí)是已知任何存儲(chǔ)技術(shù)的若干倍。2021 年 12 月,東南大學(xué)劉宏教授就曾將校訓(xùn)“止于至善”-“Rest in the highest excellence”刻在 DNA 分子里。 近日,天津大學(xué)合成生物學(xué)團(tuán)隊(duì)又創(chuàng)新 DNA 存儲(chǔ)算法,將上述十幅敦煌壁畫存入 DNA 中,通過加速老化實(shí)驗(yàn)驗(yàn)證壁畫信息在實(shí)驗(yàn)室常溫下可保存千年,在 9.4°C 下可保存兩萬年。相關(guān)成果以“Robust data storage in DNA by de Bruijn graph-based de novo strand assembly”為題在線發(fā)表于 Nature Communications。 ▲圖丨DNA 存儲(chǔ)的敦煌壁畫(來源:天津大學(xué)) 具體做法如下:首先,團(tuán)隊(duì)通過 DNA 合成技術(shù)結(jié)合糾錯(cuò)編碼將壁畫信息寫入到 DNA 中,實(shí)現(xiàn)了高密度(295 PB/g,1 PB = 1024 TB)的數(shù)據(jù)存儲(chǔ)。然而,DNA 作為一種鏈?zhǔn)缴锎蠓肿?,在體外常溫保存時(shí)面臨 DNA 斷裂降解等風(fēng)險(xiǎn),影響信息存儲(chǔ)的長(zhǎng)期可靠性。 為解決該問題,團(tuán)隊(duì)設(shè)計(jì)了基于德布萊英圖理論的序列重建算法。該算法結(jié)合貪婪路徑搜索和循環(huán)冗余校驗(yàn)碼來實(shí)現(xiàn)斷裂 DNA 片段的高效從頭組裝,從原理上支持了 DNA 存儲(chǔ)的長(zhǎng)期可靠性。 ▲圖丨基于德布萊英圖圖論設(shè)計(jì)的序列重建算法高效解決 DNA 斷裂、降解問題(來源:天津大學(xué)) 結(jié)合該序列重建算法(內(nèi)碼)與噴泉碼算法(外碼),團(tuán)隊(duì)設(shè)計(jì)編碼了 6.8 MB 敦煌壁畫,合成了承載圖片信息的 DNA 片段 21 萬條。為數(shù)據(jù)的長(zhǎng)期可靠性,團(tuán)隊(duì)制備了一個(gè)沒有任何特殊保護(hù)的 DNA 水溶液樣本,并在 70°C 下加速樣本斷裂、降解長(zhǎng)達(dá)十周。處理后的 DNA 片段 80% 以上都發(fā)生了斷裂錯(cuò)誤,依靠設(shè)計(jì)的序列重建算法依然可以準(zhǔn)確組裝并解碼 96.4% 以上的片段,再通過噴泉碼解決少量片段丟失的問題,原始的敦煌壁畫圖片依然能夠完美恢復(fù)。根據(jù)理論推算,這種程度的高溫破壞相當(dāng)于實(shí)驗(yàn)室常溫 25°C 一千年或者 9.4°C 長(zhǎng)達(dá)兩萬年的自然保存。 該算法支持 DNA 分子成為世界上最可靠的數(shù)據(jù)存儲(chǔ)介質(zhì)之一。這項(xiàng)技術(shù)為長(zhǎng)期保存人類歷史文化遺產(chǎn)提供了一個(gè)潛在的數(shù)字化解決方案。 這并不是天津大學(xué)合成生物學(xué)團(tuán)隊(duì)第一次在 DNA 存儲(chǔ)上取得突破。2021 年 3 月,天津大學(xué)元英進(jìn)教授帶領(lǐng)跨學(xué)科團(tuán)隊(duì),借助團(tuán)隊(duì)在酵母人工基因組化學(xué)合成領(lǐng)域的積累,從頭編碼設(shè)計(jì)合成了一條長(zhǎng)度為 254,886 bp、專用于數(shù)據(jù)存儲(chǔ)的酵母人工染色體,借助無線通信中前沿的糾錯(cuò)編碼將兩張經(jīng)典圖片和一段視頻存儲(chǔ)于高校組裝的人造染色體,利用酵母繁殖實(shí)現(xiàn)了數(shù)據(jù)穩(wěn)定復(fù)制,用便攜式的三代納米孔測(cè)序器件實(shí)現(xiàn)了數(shù)據(jù)快速讀出與無錯(cuò)恢復(fù)。 當(dāng)然,不僅在學(xué)術(shù)界,工業(yè)界 DNA 存儲(chǔ)也取得了很大進(jìn)展。由中科院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所副所長(zhǎng)戴俊彪創(chuàng)立的中科碳元于 2021 年 5 月成立,成立之初,就獲得了數(shù)千萬元人民幣天使輪融資。近日,法國(guó)初創(chuàng)公司 Biomemory 也開發(fā)了一種 DNA Drive 存儲(chǔ)技術(shù),可利用合成生物學(xué)將 5PB 的數(shù)據(jù)存儲(chǔ)在“金屬膠囊”中,并可通過 DNA 測(cè)序儀讀取。 大數(shù)據(jù)時(shí)代,全世界每時(shí)每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)的需求也在不斷攀升。Nature Materials 曾在 2016 年預(yù)測(cè),到 2025 年全球信息數(shù)據(jù)總量可達(dá) 163ZB,相當(dāng)于 163x1024x1024x1024TB,需要 350 億個(gè) 5TB 硬盤才能裝下。不過,天津大學(xué)元英進(jìn)院士也曾表示,DNA 存儲(chǔ)是人們希望看到的合成生物學(xué)和信息技術(shù)融合的典范。但是,目前 DNA 存儲(chǔ)仍然面臨合成成本高、讀寫速度慢,以及如何與現(xiàn)代存儲(chǔ)系統(tǒng)融合等挑戰(zhàn)。 參考資料:1.http://news./info/1003/62410.htm