我們將如何應對海量的基因信息新一代測序技術帶給人們大量遺傳信息的同時,卻成為限制其廣泛應用的一個障礙。1980年,英國生物化學家Frederick Sanger與美國生物化學家Walter Gilbert建立了DNA測序技術并獲得諾貝爾化學獎,至今已有近三十年了。在這三十年,DNA測序技術取得了令人矚目的進展。目前已進入市場的循環(huán)陣 列測序平臺采用的是與Sanger生物化學測序方法完全不同的原理。在過去幾年,應用極為廣泛的毛細管電泳測序法采用的則是多線并行陣列格式,它運用尖端的熒光成像技術進行堿基識別。上述各類新技術為生物學研究領域開辟了新的視角,也使實驗研究達到一個新的水平。學界對開發(fā)這類新技術的興趣持續(xù)高漲,與此同時,人們卻發(fā)現(xiàn)這些技術存在一定的不足——大量信息數(shù)據(jù)的產生限制了技術更加廣泛的應用,并降低了其市場價值。過去,研究人員使用Applied Biosystems(ABI)公司的3730XL毛細管電泳測序儀進行基因分析,每年至多能完成六千萬堿基的測序量。隨著測序技術日新月異的發(fā)展,這種情況已經(jīng)成為歷史。在2005年剛剛開始進行新一代測序技術開發(fā)時,Roche公司和454公司聯(lián)合開發(fā)的焦磷酸測序儀的分析速度就已經(jīng)達到了上述提及的ABI儀器速度的50倍之上。也就是從那時起,因基因數(shù)據(jù)過多而產生的問題凸顯了出來,而且這個問題隨著其他制造商開發(fā)出更多更快的測序儀而愈加嚴重。舉個例子,ABI的新一代測序平臺SOLiD (supported oligonucleotide ligation and detection)單次運行,便可以分析6Gb的堿基序列;而Roche/454測序儀單次運行可以將上述結果轉換成12-15個千兆字節(jié)(gigabytes)的數(shù)據(jù)信息;Illumina Genome Analyzer(GAII)測序系統(tǒng)僅在兩個小時的運行時間里,就得到10兆字節(jié)(terabytes)的信息。盡管對于像Applied Biosystems這樣的制造商而言,可以為用戶提供高達11.25TB的存儲量,但對于多數(shù)實驗室所具有的信息管理系統(tǒng)來說,規(guī)模如此龐大的數(shù)據(jù)信息,就好像是迎面而來的洪水,讓人感到難以控制。過量信息所帶來的一個副作用在于,用戶無法將初始圖像數(shù)據(jù)進行分類存檔,而必須交給相關公司,利用軟件對數(shù)據(jù)進行讀取,然后才能對數(shù)據(jù)進行保存。 對于大多數(shù)研究人員來說,像這樣在每次實驗后對原始數(shù)據(jù)進行處理的方式既繁瑣又不經(jīng)濟。與花費上萬美元對每一段序列進行備份分析相比,對每一次測序結果進行重新測定顯然是一個更簡單、更便宜的選擇。測序儀制造商稱,對原始數(shù)據(jù)再次進行分析并不能得到更多新的信息。但是,對于454測序儀而言,用戶至少可以通過更新的軟件從原始數(shù)據(jù)得到質量更高的序列,從而提高堿基識別分辨率,減少誤差。除數(shù)據(jù)處理問題之外,研究人員還需要擁有一個足夠強大的計算機平臺,以便將來自多個測序技術的短小基因片段進行組合,形成基因組外顯子。目前問題在于,測序儀生產商僅僅提供用于某些特定基因信息分析的軟件,如靶標重測序、基因表達分析、染色質免疫沉淀反應或基因組從頭測序等,而并未提供任何其它類型的下游生物學信息分析軟件。研究界越來越熟悉這些測序平臺對循證生物學的巨大潛力,這也就產生了新的研究問題以及全新類型的試驗方法,而這單憑依賴目前的生物學信息是無法滿足的。從這個角度看,SOLiD軟件研發(fā)公司(http:///gf/)于今年七月剛剛兼并了兩個新的軟件公司,這一舉動無疑朝正確的方向邁進了一步。該公司在開放源碼許可證下開發(fā)軟件分析工具,目的就是為了給生物信息學領域提供支持,并為其開發(fā)新的算法。對用戶而言,如果能夠將數(shù)據(jù)格式與不同測序平臺獲得的結果進行比較所得的統(tǒng)計數(shù)字進行標準化,無疑具有重大的意義。特別是由于目前以測序平臺為核心的市場競爭激烈,因此每個生產商都努力提供最好的數(shù)據(jù)結果。在這樣的大環(huán)境下,對數(shù)據(jù)及不同產品的比較結果進行標準化,便顯得尤為重要。有一個方法可以更好地對不同的新一代測序技術進行比較,那就是建立一個微陣列定性分析小組(Microarray Quality Control consortium),不僅可以對不同的技術結果進行比較,而且還可以將新技術結果與DNA微陣列或定量PCR進行比較。綜合以上各類因素,可以預見的是,新一代測序平臺在近幾年內,仍然會局限于少數(shù)實驗室及研究者,而大多數(shù)缺少能夠對基因信息進行進一步分析的實驗室 則無法從新測序技術中獲益。對大多數(shù)實驗室而言,即使新一代的測序平臺能夠提供更多的信息,DNA微陣列分析仍然是一個相對便宜的選擇。例如,在轉錄分析 中,雖然新一代測序結果不僅能給出具有很大動態(tài)范圍的基因豐度信息,同時還可提供剪切變異信息以及SNP數(shù)據(jù),但是這些數(shù)據(jù)結果都需要進行不同的DNA微 陣列分析才能獲得。那么,有沒有什么方法可以解決這些問題呢?首先,相關的資金授予機構應該對生物信息學的發(fā)展予以與測序技術同等的關注;此外,由于生物信息學發(fā)展中 的瓶頸已經(jīng)限制了測序機器的銷售,測序儀生產商也應該聯(lián)合起來解決這一難題。同時,制造商應該致力于制定以研究領域為基礎而不是以不同公司為基礎的生物信息學解決方案。因此,如果新一代測序平臺真的能夠帶動基因組測序“普及化”——讓基因組測序從大型測序中心走入每個研究人員的實驗室或者小型研究小組,那么還需要 研究人員付出更多努力,開發(fā)出經(jīng)濟實惠的分析軟件以及數(shù)據(jù)管理系統(tǒng)。目前的狀況是,與新一代測序技術相關的生物信息學分析工作僅僅掌握在少數(shù)人手里,但是這一具有重要價值的技術毫無疑問應該由大多數(shù)人掌握。如果數(shù)據(jù)處理問題不能得到有效解決,那么ABI公司的SOLiD系統(tǒng)、454公司的超高通量基因組測序系統(tǒng)——GS FLX、Illumina公司的GAII系統(tǒng)等新一代測序儀就永遠無法真正出現(xiàn)在能夠展現(xiàn)其價值的舞臺上。原文檢索:Editorial. (2008) Prepare for the deluge. Nature Biotechnology, 26(10): 1099.二傳統(tǒng)的DNA測序技術—Sanger測序法自上世紀90年代初,所有的DNA測序操作幾乎無一例外地全部采用半自動化毛細管電泳Sanger測序法。而后來出現(xiàn)的高通量測序方法則首先采用以下兩種方法中的一種對DNA進行預處理。 無論采用以上哪種方法處理后,我們均可以得到大量的待測序模板片段—質粒或PCR產物。隨后,測序儀會進行“循環(huán)測序”反應。在每一輪測序反應的引物延伸步驟中,會隨機引入已被四種不同顏色熒光分別標記的ddNTP(ddATP、ddTTP、ddGTP、ddCTP)以終止延伸反應。這樣就形成了 大量末端被熒光標記的、長短不一(終止位點不同)的延伸產物。接著,再用高分辨率的毛細管凝膠電泳分離這些延伸產物,通過對延伸產物末端四種不同熒光顏色的區(qū)分,計算機軟件會自動“讀出”DNA序列。不過,該方法在“讀取”每一個堿基信息時都有可能出錯。后續(xù)操作中,比如基因組組裝或者找出變異位點等就是 具體情況具體解決了。一般,這種高通量測序儀一次最多只能同時進行96個或384個樣品測序。Sanger DNA測序技術經(jīng)過了30年的不斷發(fā)展與完善,現(xiàn)在已經(jīng)可以對長達1,000bp的DNA片段進行測序了,而且對每一個堿基的讀取準確率高達 99.999%。在高通量基因組鳥槍法測序操作當中,使用Sanger測序法的費用大約為0.5美元/1,000個堿基。 |
|
來自: stingray928 > 《待分類1》