小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

小L生信學(xué)習(xí)日記-3丨原始數(shù)據(jù)質(zhì)量如何判斷?-上

 我是皮卡丘 2022-04-21

圖片

小L生信日記

嗨,大家好,我是小L。

小L又來(lái)啦~上次已經(jīng)學(xué)過(guò)了“生信必知背景知識(shí)”,這次就要開始進(jìn)行數(shù)據(jù)分析。

先了解一下我們分析的數(shù)據(jù)是怎么來(lái)的,二代測(cè)序的流程可以簡(jiǎn)單總結(jié)為:核酸抽提——文庫(kù)構(gòu)建——測(cè)序——數(shù)據(jù)分析,而我們分析的對(duì)象就是“測(cè)序”獲得的下機(jī)數(shù)據(jù)。

但是,測(cè)序下機(jī)得到的原始數(shù)據(jù)怎么樣?是否合格?是否能夠進(jìn)行后續(xù)分析?

我們要通過(guò)質(zhì)量評(píng)估(Quality Control,QC)來(lái)查看原始reads的質(zhì)量,常用的工具就是FastQC(網(wǎng)址:http://www.bioinformatics./projects/fastqc/),下載之后按照提示安裝即可。

 

軟件對(duì)原始數(shù)據(jù)質(zhì)檢完成之后,會(huì)自動(dòng)保存在文件夾內(nèi)。直接打開HTML格式的結(jié)果報(bào)告,左側(cè)會(huì)顯示出內(nèi)容質(zhì)檢內(nèi)容總覽:

圖片

結(jié)果分為:綠色表示“PASS(通過(guò))”,紅色表示“FAIL(未通過(guò))”,黃色表示“WARN(警告,不太好)”

 

接下來(lái)的內(nèi)容,小L記錄的比較詳細(xì),因?yàn)樾覺(jué)得這樣的方式便于理解,也適合回看,方便查找。

當(dāng)然,如果只想學(xué)會(huì)看懂圖形好壞的話,可以忽略“橫縱坐標(biāo)及解釋”,直接看“圖形判斷”。圖形判斷部分內(nèi)容也分為兩部分:一個(gè)是軟件系統(tǒng)判斷標(biāo)準(zhǔn),這個(gè)了解即可;第二部分比較常用,給出了簡(jiǎn)單判斷圖形好壞的標(biāo)準(zhǔn),并給出了反例。

 

1.Basic Statistics(基本統(tǒng)計(jì)信息)

圖片

basic statistics會(huì)顯示出原始數(shù)據(jù)的一些基本信息:文件名稱、文件類型、編碼方式(測(cè)序平臺(tái))、序列總數(shù)量、標(biāo)記為低質(zhì)量的序列數(shù)、序列長(zhǎng)度、GC含量。(大家可以記住圖中紅框內(nèi)的信息,后面的講解有引用。)

對(duì)于基本信息,沒(méi)有什么好判斷的,所以Basic Statistics從不提出警告。

 

2.Per base sequence quality

(單堿基序列質(zhì)量)

圖片

橫軸:序列上各位置的堿基(1-150,共150個(gè)堿基)

縱軸:堿基質(zhì)量(quality),以質(zhì)量分?jǐn)?shù)(Quality score)作為量度。Quality score =-10log10p,p為錯(cuò)誤率

解釋:上圖表示,對(duì)該文件中的29409041條序列上每個(gè)位置的堿基進(jìn)行質(zhì)量檢測(cè),得到各個(gè)位置堿基的質(zhì)量情況。對(duì)于每個(gè)位置,繪制BoxWhisker圖,主要參數(shù)如下:

紅色橫線:中位數(shù)

藍(lán)色折線:平均數(shù)的連線

亮黃色方框:四分位25~75%的區(qū)間

黑色橫線觸須:10-90%區(qū)間

    

圖形判斷: 

  • 若任一位置的下四分位線(黃色區(qū)間底端)低于10或中位數(shù)低于25,報(bào)“WARN(黃色)”;若任一位置的下四分位線(黃色區(qū)間底端)低于5或中位數(shù)低于20,報(bào)“FAIL(紅色)”

  • 三色背景圖按照質(zhì)量分?jǐn)?shù)分為三部分:綠色(堿基質(zhì)量很好)、黃色(堿基質(zhì)量一般)、紅色(堿基質(zhì)量差)。堿基的質(zhì)量越高越好,一般要求縱坐標(biāo)不低于20,即紅色背景區(qū)域沒(méi)有圖形,比如上圖。下圖是一個(gè)反例:

圖片

 

3.per tile sequence quality

圖片

橫軸:測(cè)序序列上150個(gè)堿基的位置

縱軸:測(cè)序小孔

解釋:這一模塊是檢查在測(cè)序平臺(tái)上,reads中每一個(gè)堿基位置在不同的測(cè)序小孔之間的偏離度,偏離度越高,堿基質(zhì)量越差。

圖中的tile是什么?這個(gè)說(shuō)來(lái)話長(zhǎng),不如不講。我們只需要了解它是Illumina測(cè)序設(shè)備中flow cell的一部分,通過(guò)查看per tile的質(zhì)量得分,可以查看是否僅與flow cell的一部分相關(guān)聯(lián)的質(zhì)量損失。

圖片判斷

  • 系統(tǒng)判斷:偏離度小于平均值2以上報(bào)"WARN(黃色,!)",偏離度小于平均值5以上報(bào)"FAIL(紅色,X)"。

  • 圖中顏色是從冷到熱的比例,藍(lán)色表示低于平均偏離度, 越紅則說(shuō)明偏離平均質(zhì)量方差越多,也就是說(shuō)質(zhì)量越差。比較好的情況是像上圖一樣一片藍(lán)色。下圖是一個(gè)反例:

圖片

4.Per sequence quality scores

序列質(zhì)量統(tǒng)計(jì)

圖片

橫軸:序列的質(zhì)量分?jǐn)?shù),Quality score = -10log10p,p為錯(cuò)誤率,p為一條reads在某個(gè)位置出錯(cuò)的概率,當(dāng)p為1%時(shí),Q值=20。

縱軸:reads數(shù)目

解釋:該圖表示序列質(zhì)量的分布情況,即有xx(縱坐標(biāo))條reads的質(zhì)量分?jǐn)?shù)(Q值)為xx(橫坐標(biāo))。

圖形判斷

  • 軟件會(huì)自行判斷:當(dāng)峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào) "WARN(黃色,?。?,當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)" FAIL(紅色,X)"。

  • 一般情況下,90%的reads測(cè)序質(zhì)量(Q值)在35分以上,就認(rèn)為測(cè)序質(zhì)量非常好。如上圖,序列集中在最右端Q值較大的區(qū)域。下圖是一個(gè)反例:中間有起峰,說(shuō)明有一定量序列的Q值小于20。

圖片

 

5.Per base sequence content

堿基比例分布

圖片

橫軸:序列上150個(gè)堿基的位置(1-150bp)

縱軸:ATCG四種堿基在每個(gè)位置上的含量百分比

解釋:不同的堿基分別用不同的顏色表示。對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基(正常情況)的分布:理論上,如果建庫(kù)足夠均勻,reads的每個(gè)位置應(yīng)當(dāng)是沒(méi)有差異的,A=T , C=G,且整個(gè)測(cè)序過(guò)程中穩(wěn)定不變,四條線平行于X軸,反映樣品(基因組、轉(zhuǎn)錄組等)的GC含量。但實(shí)際上,測(cè)序儀剛開始測(cè)序時(shí)狀態(tài)不穩(wěn)定,常會(huì)出現(xiàn)前幾個(gè)堿基有較大波動(dòng)的情況(如上圖)。這種情況下,一般要去掉開頭部分的序列信息。

圖形判斷:

  • 軟件判定標(biāo)準(zhǔn):當(dāng)任一位置的GC含量偏離均值的5%時(shí),報(bào)"WARN";當(dāng)任一位置的GC含量偏離均值的10%時(shí),報(bào) "FAIL"。

  • 比較好的圖形是:A=T , C=G,且四條線平行于x軸。實(shí)際情況中,reads開頭部分常會(huì)出現(xiàn)較大波動(dòng),軟件一般都會(huì)判“WARN/FAIL”。

在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫(kù)操作造成的,比如建 GBS 文庫(kù)時(shí)在 reads 開頭加了 barcode;barcode 的堿基組成不是均一的,酶切位點(diǎn)的堿基組成是固定不變的,這樣會(huì)造成明顯的堿基組成偏離;在 reads 結(jié)尾出現(xiàn)的堿基組成偏離,往往是測(cè)序接頭的污染造成的。

上圖的前段情況不算特別好,但從第15個(gè)堿基開始,A=T , C=G,四條線平行于X軸,配合其他部分比較不錯(cuò)的結(jié)果,可以進(jìn)行后續(xù)分析。下圖是一個(gè)反例:A≠T ,四條線也不是平行于X軸的直線。

圖片

上面只放了質(zhì)控內(nèi)容的第五部分,剩下還有六部分放到下期里面講。

(因?yàn)閮?nèi)容太長(zhǎng)的話,你們也不愛(ài)看) 

除了質(zhì)控內(nèi)容的剩余部分,下一期小L還會(huì)請(qǐng)生信部的小哥哥回復(fù)兩個(gè)常會(huì)遇到的問(wèn)題。請(qǐng)期待!

什么問(wèn)題?下期見(jiàn)吧。

拜拜~ 新年快樂(lè)!

 

 

小L

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多