duplicate的三個問題: 一.什么是duplicate? 二.duplicate來源? 三.既然PCR將1個reads復(fù)制得到成百上千copies,那為什么二代數(shù)據(jù)duplicate rate 一般才10+%?
什么是 duplicate?摘自羅俊峰博士,閱爾基因研發(fā)總監(jiān)陳云地博士,閱爾基因CTO http://www./thread-1382-1-1.html 一、什么是Duplicated Reads
以下摘自 wangpeng905 鏈接:https://www.jianshu.com/p/1e6189f641db 為什么會有 duplicate?要弄清楚這個問題,需要從 NGS 數(shù)據(jù)產(chǎn)出流程說起:
我們首先假設(shè)基因組核酸提取是完整的基因組,打斷是完全隨機的(通常是這樣的)。 在第 3 步,PCR 擴增時同一個文庫分子會產(chǎn)生多個相同的拷貝,這是 duplicate 的主要來源(PCR duplicate)。 第 4 步,文庫中 DNA 片段與 flowcell 上引物結(jié)合,來源于同一個 DNA 片段的多個拷貝都結(jié)合到 flowcell 上,這樣會導(dǎo)致生成多個相同的 cluster,測序時也就有多個相同的序列被測出來,這些相同的序列就是 duplicate。 同在第 4 步,生成 cluster 時候一個 cluster 中的 DNA 鏈可能搭到旁邊另外一個 cluster 生成位點上,又長成一個相同的 cluster ,這也是 duplicate 的一個來源(Hiseq4000之后的 flowcell 會有的 cluster duplicate)。 第 5 步,一個 cluster 測序時的捕獲的熒光亮點由于形狀奇特,可能被軟件當(dāng)成兩個熒光點來處理,這也產(chǎn)生了兩條完全相同的 reads。這個過程中可能產(chǎn)生完全相同的 reads。(光學(xué) duplicate) 由此我們知道,PCR duplicate 特點是隨機分布于 flowcell 表面,光學(xué) duplicate 特點是它們都來自 flowcell 上位置相鄰的 cluster 。cluster 的位置被記錄在 Fastq 文件 @seq-id 這一行中。 下圖的右下角還有一種 duplicate 來源,sister? 這種一個文庫分子的兩條互補鏈同時都與 flowcell 上的引物結(jié)合分別形成了各自的 cluster,最后產(chǎn)生的兩對 reads 完全反向互補,map 到參考基因組也分別在正負鏈上的相同位置,有的分析中也算 duplicate,雖然我遇到的這種正負鏈測序結(jié)果通常是不算 duplicate 的。 illumina 平臺四種 duplicate 來源
另外,據(jù)說 NextSeq 平臺上出現(xiàn)過由于熒光信號捕獲相機移動位置不夠,導(dǎo)致 tile 邊緣被重復(fù)拍攝,每次采樣區(qū)域的邊緣由于重復(fù)采樣而出現(xiàn)的 duplicate,下圖中藍色點代表 duplicate ,在 tile 兩側(cè)明顯富集。Illumina 公司回應(yīng)說這沒毛病,符合預(yù)期…… PCR 將模板擴增了數(shù)千倍,但數(shù)據(jù)中 duplication 率只有 15%我曾經(jīng)有這樣的疑惑,為什么文庫構(gòu)建過程中的 PCR 將每個文庫分子都擴增了上千倍,以 PCR 10個循環(huán)為例 2^10= 1024 ,但是實際測序數(shù)據(jù)中 duplication 率并不高(低于20%)。后來我看到一篇文章從統(tǒng)計概率的角度詳細探討了一下 duplication 率的影響因素,順便一提,這個博主的故事也很令人佩服。 PCR 的過程中不同長度的文庫分子被擴增的效率不同(GC 太高或 AT 含量太高都會影響擴增效率),PCR 更傾向于擴增短片段的文庫分子,這里先不考慮文庫片段擴增效率的差異,把問題簡化一下,假設(shè)所有文庫分子擴增效率都相同。PCR duplicate 的主要來源是同一個文庫分子的不同拷貝都在 flowcell 上生成了可以被測序的 cluster ,導(dǎo)致同一個分子的序列被測序儀讀取多次。那么為何在每個分子都有上千個拷貝的情況下,實際卻很少出現(xiàn)同一分子的多個拷貝被測序的情況呢?主要原因就是文庫中 unique 分子的數(shù)量比被 flowcell 上引物捕獲的分子數(shù)量多很多,直白點說就是 flowcell 上用于捕獲文庫分子的引物數(shù)量太少了,兩者不在同一個數(shù)量級,導(dǎo)致很少出現(xiàn)同一個文庫分子的多個拷貝被 flowcell 上引物捕獲生成 cluster。 假設(shè)文庫中所有分子與引物的結(jié)合都是隨機的,簡化一下就相當(dāng)于,一個箱子中有 n 種顏色的球(文庫中的 n 種 unique 分子),每種顏色有 1000 個(PCR 擴增的,隨 cycle 數(shù)變化),從這個箱子中隨機拿出來 k 個球(最終測序得到 k 條 reads),其中出現(xiàn)相同顏色的球就是 duplicate,那么 duplication 率就可以根據(jù)有多少種顏色的球被取出 0,1,2,3…… 次的概率計算,可以近似用泊松分布模型來描述。 以人全基因組重測序 30X 為例,PE150 需要約 3x10^8條 reads ,文庫中 unique 分子數(shù)其實可以通過上機文庫的濃度和體積(外加 PCR 循環(huán)數(shù))計算出來,這里用近似值 3.5x10^10 個 unique 分子。每個 unique 分子期望被測序的次數(shù)是 3x108/3.5x1010 = 0.0085 ,每個 unique 分子被測 0,1,2,3… 次的概率如下圖:
unique 分子被測不同次數(shù)概率
由于 unique 分子數(shù)量太多,被測 0 次的概率遠高于 1 和 2 次,我們?nèi)コ?0 次的看一下:
unique 分子被測 1 次以上的概率
unique 分子被測序 1 次的概率遠大于 2次及以上,即便一個 unique 分子被測序 2 次,我們?nèi)コ?duplicate 時候還會保留其中一條 reads。 如果降低文庫中 unique 分子數(shù)量到 4.5x10^9 個,PCR 循環(huán)數(shù)增加以便濃度達到跟上面模擬的情況相同,測序 reads 數(shù)還是 3x10^8 條,每個 unique 分子預(yù)期被測序的次數(shù)是 3x108/4.5x109 = 0.067 。
unique 分子數(shù)降低,則 unique 分子被測序2次概率增大
unique 分子數(shù)量減少,被測序 2次的概率增大,duplication 率顯然也會增高。 到這里已經(jīng)可以很明白的看出 duplication 率主要與文庫中 unique 分子數(shù)量有關(guān),所以建庫過程中最大化 unique 分子數(shù)是降低 duplication 率的關(guān)鍵。文庫中 unique 分子數(shù)越多,說明建庫起始量越高,需要 PCR 的循環(huán)數(shù)越少,而文庫中 unique 分子數(shù)越少,說明建庫起始量越低,需要 PCR 的循環(huán)數(shù)越多,因此提高建庫起始量是關(guān)鍵。 作者:wangpeng905 鏈接:https://www.jianshu.com/p/1e6189f641db |
|