小L生信日記 嗨,大家好,我是小L。 小L又來(lái)啦~上次已經(jīng)學(xué)過(guò)了“生信必知背景知識(shí)”,這次就要開始進(jìn)行數(shù)據(jù)分析。 先了解一下我們分析的數(shù)據(jù)是怎么來(lái)的,二代測(cè)序的流程可以簡(jiǎn)單總結(jié)為:核酸抽提——文庫(kù)構(gòu)建——測(cè)序——數(shù)據(jù)分析,而我們分析的對(duì)象就是“測(cè)序”獲得的下機(jī)數(shù)據(jù)。 但是,測(cè)序下機(jī)得到的原始數(shù)據(jù)怎么樣?是否合格?是否能夠進(jìn)行后續(xù)分析? 我們要通過(guò)質(zhì)量評(píng)估(Quality Control,QC)來(lái)查看原始reads的質(zhì)量,常用的工具就是FastQC(網(wǎng)址:http://www.bioinformatics./projects/fastqc/),下載之后按照提示安裝即可。
軟件對(duì)原始數(shù)據(jù)質(zhì)檢完成之后,會(huì)自動(dòng)保存在文件夾內(nèi)。直接打開HTML格式的結(jié)果報(bào)告,左側(cè)會(huì)顯示出內(nèi)容質(zhì)檢內(nèi)容總覽: 結(jié)果分為:綠色表示“PASS(通過(guò))”,紅色表示“FAIL(未通過(guò))”,黃色表示“WARN(警告,不太好)”
接下來(lái)的內(nèi)容,小L記錄的比較詳細(xì),因?yàn)樾覺(jué)得這樣的方式便于理解,也適合回看,方便查找。 當(dāng)然,如果只想學(xué)會(huì)看懂圖形好壞的話,可以忽略“橫縱坐標(biāo)及解釋”,直接看“圖形判斷”。圖形判斷部分內(nèi)容也分為兩部分:一個(gè)是軟件系統(tǒng)判斷標(biāo)準(zhǔn),這個(gè)了解即可;第二部分比較常用,給出了簡(jiǎn)單判斷圖形好壞的標(biāo)準(zhǔn),并給出了反例。
1.Basic Statistics(基本統(tǒng)計(jì)信息) basic statistics會(huì)顯示出原始數(shù)據(jù)的一些基本信息:文件名稱、文件類型、編碼方式(測(cè)序平臺(tái))、序列總數(shù)量、標(biāo)記為低質(zhì)量的序列數(shù)、序列長(zhǎng)度、GC含量。(大家可以記住圖中紅框內(nèi)的信息,后面的講解有引用。) 對(duì)于基本信息,沒(méi)有什么好判斷的,所以Basic Statistics從不提出警告。
2.Per base sequence quality (單堿基序列質(zhì)量) 橫軸:序列上各位置的堿基(1-150,共150個(gè)堿基) 縱軸:堿基質(zhì)量(quality),以質(zhì)量分?jǐn)?shù)(Quality score)作為量度。Quality score =-10log10p,p為錯(cuò)誤率 解釋:上圖表示,對(duì)該文件中的29409041條序列上每個(gè)位置的堿基進(jìn)行質(zhì)量檢測(cè),得到各個(gè)位置堿基的質(zhì)量情況。對(duì)于每個(gè)位置,繪制BoxWhisker圖,主要參數(shù)如下: 紅色橫線:中位數(shù) 藍(lán)色折線:平均數(shù)的連線 亮黃色方框:四分位25~75%的區(qū)間 黑色橫線觸須:10-90%區(qū)間
圖形判斷:
3.per tile sequence quality 橫軸:測(cè)序序列上150個(gè)堿基的位置 縱軸:測(cè)序小孔 解釋:這一模塊是檢查在測(cè)序平臺(tái)上,reads中每一個(gè)堿基位置在不同的測(cè)序小孔之間的偏離度,偏離度越高,堿基質(zhì)量越差。 圖中的tile是什么?這個(gè)說(shuō)來(lái)話長(zhǎng),不如不講。我們只需要了解它是Illumina測(cè)序設(shè)備中flow cell的一部分,通過(guò)查看per tile的質(zhì)量得分,可以查看是否僅與flow cell的一部分相關(guān)聯(lián)的質(zhì)量損失。 圖片判斷:
4.Per sequence quality scores 序列質(zhì)量統(tǒng)計(jì) 橫軸:序列的質(zhì)量分?jǐn)?shù),Quality score = -10log10p,p為錯(cuò)誤率,p為一條reads在某個(gè)位置出錯(cuò)的概率,當(dāng)p為1%時(shí),Q值=20。 縱軸:reads數(shù)目 解釋:該圖表示序列質(zhì)量的分布情況,即有xx(縱坐標(biāo))條reads的質(zhì)量分?jǐn)?shù)(Q值)為xx(橫坐標(biāo))。 圖形判斷:
5.Per base sequence content 堿基比例分布 橫軸:序列上150個(gè)堿基的位置(1-150bp) 縱軸:ATCG四種堿基在每個(gè)位置上的含量百分比 解釋:不同的堿基分別用不同的顏色表示。對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基(正常情況)的分布:理論上,如果建庫(kù)足夠均勻,reads的每個(gè)位置應(yīng)當(dāng)是沒(méi)有差異的,A=T , C=G,且整個(gè)測(cè)序過(guò)程中穩(wěn)定不變,四條線平行于X軸,反映樣品(基因組、轉(zhuǎn)錄組等)的GC含量。但實(shí)際上,測(cè)序儀剛開始測(cè)序時(shí)狀態(tài)不穩(wěn)定,常會(huì)出現(xiàn)前幾個(gè)堿基有較大波動(dòng)的情況(如上圖)。這種情況下,一般要去掉開頭部分的序列信息。 圖形判斷:
在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫(kù)操作造成的,比如建 GBS 文庫(kù)時(shí)在 reads 開頭加了 barcode;barcode 的堿基組成不是均一的,酶切位點(diǎn)的堿基組成是固定不變的,這樣會(huì)造成明顯的堿基組成偏離;在 reads 結(jié)尾出現(xiàn)的堿基組成偏離,往往是測(cè)序接頭的污染造成的。 上圖的前段情況不算特別好,但從第15個(gè)堿基開始,A=T , C=G,四條線平行于X軸,配合其他部分比較不錯(cuò)的結(jié)果,可以進(jìn)行后續(xù)分析。下圖是一個(gè)反例:A≠T ,四條線也不是平行于X軸的直線。 上面只放了質(zhì)控內(nèi)容的第五部分,剩下還有六部分放到下期里面講。 (因?yàn)閮?nèi)容太長(zhǎng)的話,你們也不愛(ài)看) 除了質(zhì)控內(nèi)容的剩余部分,下一期小L還會(huì)請(qǐng)生信部的小哥哥回復(fù)兩個(gè)常會(huì)遇到的問(wèn)題。請(qǐng)期待! 什么問(wèn)題?下期見(jiàn)吧。 拜拜~ 新年快樂(lè)!
小L |
|