小L生信學(xué)習(xí)日記-3丨原始數(shù)據(jù)質(zhì)量如何判斷？-上

我是皮卡丘 2022-04-21

展開全文

小L生信日記

嗨，大家好，我是小L。

小L又來(lái)啦~上次已經(jīng)學(xué)過(guò)了“生信必知背景知識(shí)”，這次就要開始進(jìn)行數(shù)據(jù)分析。

先了解一下我們分析的數(shù)據(jù)是怎么來(lái)的，二代測(cè)序的流程可以簡(jiǎn)單總結(jié)為：核酸抽提——文庫(kù)構(gòu)建——測(cè)序——數(shù)據(jù)分析，而我們分析的對(duì)象就是“測(cè)序”獲得的下機(jī)數(shù)據(jù)。

但是，測(cè)序下機(jī)得到的原始數(shù)據(jù)怎么樣？是否合格？是否能夠進(jìn)行后續(xù)分析？

我們要通過(guò)質(zhì)量評(píng)估（Quality Control，QC）來(lái)查看原始reads的質(zhì)量，常用的工具就是FastQC（網(wǎng)址：http://www.bioinformatics./projects/fastqc/），下載之后按照提示安裝即可。

軟件對(duì)原始數(shù)據(jù)質(zhì)檢完成之后，會(huì)自動(dòng)保存在文件夾內(nèi)。直接打開HTML格式的結(jié)果報(bào)告，左側(cè)會(huì)顯示出內(nèi)容質(zhì)檢內(nèi)容總覽：

結(jié)果分為：綠色表示“PASS（通過(guò)）”，紅色表示“FAIL（未通過(guò)）”，黃色表示“WARN（警告，不太好）”

接下來(lái)的內(nèi)容，小L記錄的比較詳細(xì)，因?yàn)樾覺(jué)得這樣的方式便于理解，也適合回看，方便查找。

當(dāng)然，如果只想學(xué)會(huì)看懂圖形好壞的話，可以忽略“橫縱坐標(biāo)及解釋”，直接看“圖形判斷”。圖形判斷部分內(nèi)容也分為兩部分：一個(gè)是軟件系統(tǒng)判斷標(biāo)準(zhǔn)，這個(gè)了解即可；第二部分比較常用，給出了簡(jiǎn)單判斷圖形好壞的標(biāo)準(zhǔn)，并給出了反例。

1.Basic Statistics（基本統(tǒng)計(jì)信息）

basic statistics會(huì)顯示出原始數(shù)據(jù)的一些基本信息：文件名稱、文件類型、編碼方式（測(cè)序平臺(tái)）、序列總數(shù)量、標(biāo)記為低質(zhì)量的序列數(shù)、序列長(zhǎng)度、GC含量。（大家可以記住圖中紅框內(nèi)的信息，后面的講解有引用。）

對(duì)于基本信息，沒(méi)有什么好判斷的，所以Basic Statistics從不提出警告。

2.Per base sequence quality

（單堿基序列質(zhì)量）

橫軸：序列上各位置的堿基（1-150，共150個(gè)堿基）

縱軸：堿基質(zhì)量（quality），以質(zhì)量分?jǐn)?shù)（Quality score）作為量度。Quality score =-10log₁₀p，p為錯(cuò)誤率

解釋：上圖表示，對(duì)該文件中的29409041條序列上每個(gè)位置的堿基進(jìn)行質(zhì)量檢測(cè)，得到各個(gè)位置堿基的質(zhì)量情況。對(duì)于每個(gè)位置，繪制BoxWhisker圖，主要參數(shù)如下：

紅色橫線：中位數(shù)

藍(lán)色折線：平均數(shù)的連線

亮黃色方框：四分位25~75%的區(qū)間

黑色橫線觸須：10-90%區(qū)間

圖形判斷：

若任一位置的下四分位線（黃色區(qū)間底端）低于10或中位數(shù)低于25，報(bào)“WARN（黃色）”；若任一位置的下四分位線（黃色區(qū)間底端）低于5或中位數(shù)低于20，報(bào)“FAIL（紅色）”
三色背景圖按照質(zhì)量分?jǐn)?shù)分為三部分：綠色（堿基質(zhì)量很好）、黃色（堿基質(zhì)量一般）、紅色（堿基質(zhì)量差）。堿基的質(zhì)量越高越好，一般要求縱坐標(biāo)不低于20，即紅色背景區(qū)域沒(méi)有圖形，比如上圖。下圖是一個(gè)反例：

3.per tile sequence quality

橫軸：測(cè)序序列上150個(gè)堿基的位置

縱軸：測(cè)序小孔

解釋：這一模塊是檢查在測(cè)序平臺(tái)上，reads中每一個(gè)堿基位置在不同的測(cè)序小孔之間的偏離度，偏離度越高，堿基質(zhì)量越差。

圖中的tile是什么？這個(gè)說(shuō)來(lái)話長(zhǎng)，不如不講。我們只需要了解它是Illumina測(cè)序設(shè)備中flow cell的一部分，通過(guò)查看per tile的質(zhì)量得分，可以查看是否僅與flow cell的一部分相關(guān)聯(lián)的質(zhì)量損失。

圖片判斷：

系統(tǒng)判斷：偏離度小于平均值2以上報(bào)"WARN(黃色，!)"，偏離度小于平均值5以上報(bào)"FAIL(紅色，X)"。
圖中顏色是從冷到熱的比例，藍(lán)色表示低于平均偏離度，越紅則說(shuō)明偏離平均質(zhì)量方差越多，也就是說(shuō)質(zhì)量越差。比較好的情況是像上圖一樣一片藍(lán)色。下圖是一個(gè)反例:

4.Per sequence quality scores

序列質(zhì)量統(tǒng)計(jì)

橫軸：序列的質(zhì)量分?jǐn)?shù)，Quality score = -10log10p，p為錯(cuò)誤率，p為一條reads在某個(gè)位置出錯(cuò)的概率，當(dāng)p為1%時(shí)，Q值=20。

縱軸：reads數(shù)目

解釋：該圖表示序列質(zhì)量的分布情況，即有xx（縱坐標(biāo)）條reads的質(zhì)量分?jǐn)?shù)（Q值）為xx（橫坐標(biāo)）。

圖形判斷：

軟件會(huì)自行判斷：當(dāng)峰值小于27（錯(cuò)誤率0.2%）時(shí)報(bào) "WARN（黃色，?。?，當(dāng)峰值小于20（錯(cuò)誤率1%）時(shí)報(bào)" FAIL（紅色，X）"。
一般情況下，90%的reads測(cè)序質(zhì)量（Q值）在35分以上，就認(rèn)為測(cè)序質(zhì)量非常好。如上圖，序列集中在最右端Q值較大的區(qū)域。下圖是一個(gè)反例：中間有起峰，說(shuō)明有一定量序列的Q值小于20。

5.Per base sequence content

堿基比例分布

橫軸：序列上150個(gè)堿基的位置（1-150bp）

縱軸：ATCG四種堿基在每個(gè)位置上的含量百分比

解釋：不同的堿基分別用不同的顏色表示。對(duì)所有reads的每一個(gè)位置，統(tǒng)計(jì)ATCG四種堿基（正常情況）的分布：理論上，如果建庫(kù)足夠均勻，reads的每個(gè)位置應(yīng)當(dāng)是沒(méi)有差異的，A=T , C=G，且整個(gè)測(cè)序過(guò)程中穩(wěn)定不變，四條線平行于X軸，反映樣品（基因組、轉(zhuǎn)錄組等）的GC含量。但實(shí)際上，測(cè)序儀剛開始測(cè)序時(shí)狀態(tài)不穩(wěn)定，常會(huì)出現(xiàn)前幾個(gè)堿基有較大波動(dòng)的情況（如上圖）。這種情況下，一般要去掉開頭部分的序列信息。

圖形判斷：

軟件判定標(biāo)準(zhǔn)：當(dāng)任一位置的GC含量偏離均值的5%時(shí)，報(bào)"WARN"；當(dāng)任一位置的GC含量偏離均值的10%時(shí)，報(bào) "FAIL"。
比較好的圖形是：A=T , C=G，且四條線平行于x軸。實(shí)際情況中，reads開頭部分常會(huì)出現(xiàn)較大波動(dòng)，軟件一般都會(huì)判“WARN/FAIL”。

在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫(kù)操作造成的，比如建 GBS 文庫(kù)時(shí)在 reads 開頭加了 barcode；barcode 的堿基組成不是均一的，酶切位點(diǎn)的堿基組成是固定不變的，這樣會(huì)造成明顯的堿基組成偏離；在 reads 結(jié)尾出現(xiàn)的堿基組成偏離，往往是測(cè)序接頭的污染造成的。

上圖的前段情況不算特別好，但從第15個(gè)堿基開始，A=T , C=G，四條線平行于X軸，配合其他部分比較不錯(cuò)的結(jié)果，可以進(jìn)行后續(xù)分析。下圖是一個(gè)反例：A≠T ，四條線也不是平行于X軸的直線。

上面只放了質(zhì)控內(nèi)容的第五部分，剩下還有六部分放到下期里面講。

（因?yàn)閮?nèi)容太長(zhǎng)的話，你們也不愛(ài)看）

除了質(zhì)控內(nèi)容的剩余部分，下一期小L還會(huì)請(qǐng)生信部的小哥哥回復(fù)兩個(gè)常會(huì)遇到的問(wèn)題。請(qǐng)期待！

什么問(wèn)題？下期見(jiàn)吧。

拜拜~ 新年快樂(lè)！

小L

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：我是皮卡丘 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)