NGS的duplicate的問題

我是皮卡丘 2022-04-18

展開全文

duplicate的三個問題：

一.什么是duplicate？

二.duplicate來源？

三.既然PCR將1個reads復(fù)制得到成百上千copies，那為什么二代數(shù)據(jù)duplicate rate 一般才10+%？

什么是 duplicate？

摘自羅俊峰博士，閱爾基因研發(fā)總監(jiān)陳云地博士，閱爾基因CTO http://www./thread-1382-1-1.html

一、什么是Duplicated Reads
1
談到NGS數(shù)據(jù)的duplicated reads（暫且翻譯為“重復(fù)數(shù)據(jù)”），我們通常會直觀地認為：duplicated reads是在NGS文庫構(gòu)建過程中，由于PCR過度擴增導(dǎo)致同一個模板DNA片段被反復(fù)測序多次，得到一模一樣的reads。

2
但是這經(jīng)不起推敲。仔細一想，就很困惑。
PCR不就是用來產(chǎn)生重復(fù)數(shù)據(jù)的嗎？否則不叫PCR了。除了PCR-free的文庫構(gòu)建方法以外，大部分NGS文庫構(gòu)建方法都有PCR步驟，難道說這些NGS數(shù)據(jù)都有問題？

這是不可能的?；蛟S：
PCR可以產(chǎn)生重復(fù)序列，但是不能額外多產(chǎn)生一條或多條。設(shè)一個基因組有A、B兩個片段，PCR后，如果得到1000A+1000B，是正確的；如果得到1000A+1000A+1000B，多出來的1000A就是重復(fù)數(shù)據(jù)？問題是，PCR怎么會憑空多出來1000條片段A的測序reads呢？這要PCR出了什么樣的問題，才能產(chǎn)生出這樣的結(jié)果？

PCR是不會這樣的?；蛟S：
A+B經(jīng)過PCR后得到1500A+1000B，多出來的500條A是重復(fù)數(shù)據(jù)？這不就是大家常說的PCR bias嗎？

到底什么是“過度擴增”呢？

3
嚴格的定義是這樣的：
duplicated reads是PCR對同一個分子進行多次鏡像復(fù)制的后果。
判斷是否為鏡像分子的標準是：reads的起始和終止位置一樣，起點和終點之間的堿基序列一樣（不妨簡稱為“三一樣”）。只要起點、終點、或者起點與終點之間的序列三者之中有一個不同，就是不同的分子，稱為unique reads。
鏡像復(fù)制出來的分子個數(shù)與總分子數(shù)的比例就是duplication rate，duplication rate = 1 - unique reads / total reads。

4
PCR本來就是用來鏡像復(fù)制DNA片段的。對于最理想的NGS數(shù)據(jù)分析，難道要盡可能把所有通過PCR獲得的子鏈的測序數(shù)據(jù)全部去除，要把PCR的效果完全消除，要還原到?jīng)]有PCR的狀態(tài)？

是的。
設(shè)一個基因組有A、B兩個片段，PCR后得到無論多少條reads，比如n?A+m?B條，在數(shù)據(jù)分析的時候，都只保留1條A和1條B（unique reads）用于組裝，而去掉(n-1)條A和(m-1)條B。共有(n-1)條A和(m-1)條B被當(dāng)成duplicatedreads看待，盡管它們是正常PCR的正常產(chǎn)物。

所以，
目前的算法其實是一個簡化的處理方案，把所有重復(fù)的reads都去掉了，留下完全不重復(fù)的reads。算法沒有能力區(qū)分“假重復(fù)”（人為造成的重復(fù)序列方面的bias)和“真重復(fù)”（天然存在的重復(fù)序列）。

所以，
對于NGS 數(shù)據(jù)而言，Duplicateddata是一個生物信息學(xué)概念，不是分子生物學(xué)概念；是人為規(guī)定的，不是文庫構(gòu)建、高通量測序等生化反應(yīng)自然生成的。

以下摘自 wangpeng905 鏈接：https://www.jianshu.com/p/1e6189f641db

為什么會有 duplicate？

要弄清楚這個問題，需要從 NGS 數(shù)據(jù)產(chǎn)出流程說起：

基因組核酸提取
基因組 DNA 隨機打斷，最常用的是超聲打斷。
被打斷的 DNA 片段經(jīng)歷末端修復(fù)，3' 加A，兩端加接頭，選擇特定大小片段文庫進行 PCR 擴增（通過 PCR 擴增選擇性提高加上了接頭的文庫分子數(shù)量）。
文庫上機與 flowcell 上引物結(jié)合，經(jīng)歷橋式 PCR 擴增形成 cluster 。
進行 SBS 測序，光學(xué)信號捕獲，生成序列。

我們首先假設(shè)基因組核酸提取是完整的基因組，打斷是完全隨機的（通常是這樣的）。

在第 3 步，PCR 擴增時同一個文庫分子會產(chǎn)生多個相同的拷貝，這是 duplicate 的主要來源（PCR duplicate）。

第 4 步，文庫中 DNA 片段與 flowcell 上引物結(jié)合，來源于同一個 DNA 片段的多個拷貝都結(jié)合到 flowcell 上，這樣會導(dǎo)致生成多個相同的 cluster，測序時也就有多個相同的序列被測出來，這些相同的序列就是 duplicate。

同在第 4 步，生成 cluster 時候一個 cluster 中的 DNA 鏈可能搭到旁邊另外一個 cluster 生成位點上，又長成一個相同的 cluster ，這也是 duplicate 的一個來源（Hiseq4000之后的 flowcell 會有的 cluster duplicate）。

第 5 步，一個 cluster 測序時的捕獲的熒光亮點由于形狀奇特，可能被軟件當(dāng)成兩個熒光點來處理，這也產(chǎn)生了兩條完全相同的 reads。這個過程中可能產(chǎn)生完全相同的 reads。（光學(xué) duplicate）

由此我們知道，PCR duplicate 特點是隨機分布于 flowcell 表面，光學(xué) duplicate 特點是它們都來自 flowcell 上位置相鄰的 cluster 。cluster 的位置被記錄在 Fastq 文件 @seq-id 這一行中。

下圖的右下角還有一種 duplicate 來源，sister? 這種一個文庫分子的兩條互補鏈同時都與 flowcell 上的引物結(jié)合分別形成了各自的 cluster，最后產(chǎn)生的兩對 reads 完全反向互補，map 到參考基因組也分別在正負鏈上的相同位置，有的分析中也算 duplicate，雖然我遇到的這種正負鏈測序結(jié)果通常是不算 duplicate 的。

illumina 平臺四種 duplicate 來源

另外，據(jù)說 NextSeq 平臺上出現(xiàn)過由于熒光信號捕獲相機移動位置不夠，導(dǎo)致 tile 邊緣被重復(fù)拍攝，每次采樣區(qū)域的邊緣由于重復(fù)采樣而出現(xiàn)的 duplicate，下圖中藍色點代表 duplicate ，在 tile 兩側(cè)明顯富集。Illumina 公司回應(yīng)說這沒毛病，符合預(yù)期……

PCR 將模板擴增了數(shù)千倍，但數(shù)據(jù)中 duplication 率只有 15%

我曾經(jīng)有這樣的疑惑，為什么文庫構(gòu)建過程中的 PCR 將每個文庫分子都擴增了上千倍，以 PCR 10個循環(huán)為例 2^10= 1024 ，但是實際測序數(shù)據(jù)中 duplication 率并不高（低于20%）。后來我看到一篇文章從統(tǒng)計概率的角度詳細探討了一下 duplication 率的影響因素，順便一提，這個博主的故事也很令人佩服。

PCR 的過程中不同長度的文庫分子被擴增的效率不同（GC 太高或 AT 含量太高都會影響擴增效率），PCR 更傾向于擴增短片段的文庫分子，這里先不考慮文庫片段擴增效率的差異，把問題簡化一下，假設(shè)所有文庫分子擴增效率都相同。PCR duplicate 的主要來源是同一個文庫分子的不同拷貝都在 flowcell 上生成了可以被測序的 cluster ，導(dǎo)致同一個分子的序列被測序儀讀取多次。那么為何在每個分子都有上千個拷貝的情況下，實際卻很少出現(xiàn)同一分子的多個拷貝被測序的情況呢？主要原因就是文庫中 unique 分子的數(shù)量比被 flowcell 上引物捕獲的分子數(shù)量多很多，直白點說就是 flowcell 上用于捕獲文庫分子的引物數(shù)量太少了，兩者不在同一個數(shù)量級，導(dǎo)致很少出現(xiàn)同一個文庫分子的多個拷貝被 flowcell 上引物捕獲生成 cluster。

假設(shè)文庫中所有分子與引物的結(jié)合都是隨機的，簡化一下就相當(dāng)于，一個箱子中有 n 種顏色的球（文庫中的 n 種 unique 分子），每種顏色有 1000 個（PCR 擴增的，隨 cycle 數(shù)變化），從這個箱子中隨機拿出來 k 個球（最終測序得到 k 條 reads），其中出現(xiàn)相同顏色的球就是 duplicate，那么 duplication 率就可以根據(jù)有多少種顏色的球被取出 0,1,2,3…… 次的概率計算，可以近似用泊松分布模型來描述。

以人全基因組重測序 30X 為例，PE150 需要約 3x10^8條 reads ，文庫中 unique 分子數(shù)其實可以通過上機文庫的濃度和體積（外加 PCR 循環(huán)數(shù)）計算出來，這里用近似值 3.5x10^10 個 unique 分子。每個 unique 分子期望被測序的次數(shù)是 3x10^8/3.5x1010 = 0.0085 ，每個 unique 分子被測 0,1,2,3… 次的概率如下圖：

> x <- seq(0,10,1)
> xnames <- as.character(x)
> xlab <- "一個文庫分子的所有拷貝被測序的次數(shù)"
> ylab <- "概率"
> barplot(dpois(x,lambda = 0.0085),
+ names.arg = xnames,
+ xlab = xlab,
+ ylab = ylab)

unique 分子被測不同次數(shù)概率

由于 unique 分子數(shù)量太多，被測 0 次的概率遠高于 1 和 2 次，我們?nèi)コ?0 次的看一下：

> x <- seq(1,10,1)
> xnames <- as.character(x)
> xlab <- "一個文庫分子的所有拷貝被測序的次數(shù)"
> ylab <- "概率"
> barplot(dpois(x,lambda = 0.0085),
+ names.arg = xnames,
+ xlab = xlab,
+ ylab = ylab)

unique 分子被測 1 次以上的概率

unique 分子被測序 1 次的概率遠大于 2次及以上，即便一個 unique 分子被測序 2 次，我們?nèi)コ?duplicate 時候還會保留其中一條 reads。

如果降低文庫中 unique 分子數(shù)量到 4.5x10^9 個，PCR 循環(huán)數(shù)增加以便濃度達到跟上面模擬的情況相同，測序 reads 數(shù)還是 3x10^8 條，每個 unique 分子預(yù)期被測序的次數(shù)是 3x10^8/4.5x109 = 0.067 。

> x <- seq(1,10,1)
> xnames <- as.character(x)
> xlab <- "一個文庫分子的所有拷貝被測序的次數(shù)"
> ylab <- "概率"
> barplot(dpois(x,lambda = 0.067),
+ names.arg = xnames,
+ xlab = xlab,
+ ylab = ylab)

unique 分子數(shù)降低，則 unique 分子被測序2次概率增大

unique 分子數(shù)量減少，被測序 2次的概率增大，duplication 率顯然也會增高。

到這里已經(jīng)可以很明白的看出 duplication 率主要與文庫中 unique 分子數(shù)量有關(guān)，所以建庫過程中最大化 unique 分子數(shù)是降低 duplication 率的關(guān)鍵。文庫中 unique 分子數(shù)越多，說明建庫起始量越高，需要 PCR 的循環(huán)數(shù)越少，而文庫中 unique 分子數(shù)越少，說明建庫起始量越低，需要 PCR 的循環(huán)數(shù)越多，因此提高建庫起始量是關(guān)鍵。

作者：wangpeng905
鏈接：https://www.jianshu.com/p/1e6189f641db