對(duì)于轉(zhuǎn)錄組數(shù)據(jù)而言,最基礎(chǔ)的分析就是基因和轉(zhuǎn)錄本水平的定量了,定量就是確定一個(gè)基因或者轉(zhuǎn)錄本的表達(dá)量,其中定量的方式有很多種。 最直接的方式就是統(tǒng)計(jì)mapping到這個(gè)基因/轉(zhuǎn)錄本上的reads的個(gè)數(shù),將reads數(shù)作為表達(dá)量。我們稱這種表達(dá)量為raw count。 在raw count的基礎(chǔ)上,利用外顯子長度進(jìn)行歸一化,就得到了TPM值的定量方式。對(duì)于每個(gè)基因,將raw count除了該基因的長度(exon長度之和) , 得到長度歸一化之后的表達(dá)量。某個(gè)基因的TPM值就是利用歸一化之后的表達(dá)量,計(jì)算了一個(gè)相對(duì)豐度。具體計(jì)算公式如下,注意基因長度以
RPKM和FPKM 唯一不同的地方在于raw count的計(jì)算,RPKM 計(jì)算的是reads 數(shù),而FPKM 值計(jì)算的是fragments 數(shù),對(duì)于單端測序, fragment 和 reads 的個(gè)數(shù)是相等的;對(duì)于雙端測序,reads 數(shù)目是fragments 數(shù)目的兩倍,對(duì)于FPKM 而言,即使雙端的兩條reads都比對(duì)上了基因組,在計(jì)數(shù)時(shí)也知計(jì)一次,因?yàn)閮蓷lreads來源于同一個(gè)fragment。 具體計(jì)算公式如下, 需要注意單位,mapping上的reads 總數(shù)以 能夠進(jìn)行定量的軟件有很多,本文主要介紹stringTie這款軟件。 在早期的轉(zhuǎn)錄組數(shù)據(jù)分析中,最經(jīng)典的分析策略是tophat+cufflinks+cuffdiff, 這套分析的pipeline會(huì)給出基于FPKM值的定量結(jié)果,然后進(jìn)行差異分析,但是隨著測序數(shù)據(jù)量的提高和分析手段的發(fā)展,這套分析策略出現(xiàn)了很多的問題。 首先就是tophat的速度很慢,相比新出的比對(duì)軟件,其速度可以算得上是龜速了,同樣的數(shù)據(jù)量,hisat/star只需要半個(gè)小時(shí)就可以比對(duì)完成,tophat2至少需要5到6個(gè)小時(shí);其次,基于FPKM值得到的差異結(jié)果和實(shí)驗(yàn)手段如qPCR驗(yàn)證的一致性較差。 為了順應(yīng)測序和分析的新趨勢(shì),原本的開發(fā)團(tuán)隊(duì)對(duì)整個(gè)pipeline進(jìn)行了全面升級(jí), 用hisat 代替tophat, 用stringTie + ballgown 代替cufflinks + cuffdiff。 stringTie 可以看做是cufflinks 軟件的升級(jí)版本,其功能和cufflinks是一樣的 ,包括下面兩個(gè)主要功能
相比cuffinks, 其運(yùn)行速度更快。該軟件的官網(wǎng)如下
stringTie的輸入文件為經(jīng)過排序之后的bam文件,常見用法有以下幾種 1. 對(duì)已知轉(zhuǎn)錄本進(jìn)行定量對(duì)于模式生物,如human, mouse等,通常只需要對(duì)已知的轉(zhuǎn)錄本定量即可,用法如下 stringtie -p 10 -G hg19.gtf -o output.gtf -b ballgown_out_dir -e align.sorted.bam
在輸出的GTF格式的文件中,對(duì)于每個(gè)轉(zhuǎn)錄本,會(huì)給出以下3種表達(dá)量
2. 組裝本組裝對(duì)于單個(gè)樣本進(jìn)行組裝,用法如下 stringtie align.sorted.bam
-o assembly.gtf
-p 20
-G hg19.gtf 在組裝的轉(zhuǎn)錄本中,也會(huì)給出定量的結(jié)果,對(duì)于組裝的新轉(zhuǎn)錄本和基因,默認(rèn)采用 gene_id "STRG.1"
transcript_id "STRG.1.1" 單個(gè)樣本組裝完成后,會(huì)合并所有樣本的轉(zhuǎn)錄本組裝結(jié)果,得到一個(gè)非冗余的轉(zhuǎn)錄本集合,用法如下 stringtie --merge -o assembly.gtf -p 20 -G hg19.gtf sampleA.gtf sampleB.gtf 在合并的非冗余轉(zhuǎn)錄本中,采用 gene_id "MSTRG.2"
transcript_id "MSTRG.2.2" 本質(zhì)上,stringTie只提供了轉(zhuǎn)錄本水平的表達(dá)量,定量方式包括TPM和FPKM值兩種。為了進(jìn)行raw count的定量方式,官方提供了 python prepDE.py -i sample_list.txt -g gene_count_matrix.csv -o transcript_count_matrix.csv 輸入文件為sample_list.txt, 該文件為 sampleA A.stringtie.gtf
sampleB B.stringtie.gtf 同時(shí)輸出基因和轉(zhuǎn)錄本水平的raw count表達(dá)量值。 采用stringTie進(jìn)行定量,運(yùn)行速度快是一個(gè)優(yōu)勢(shì),同時(shí)提供raw count, FPKM, TPM 3種定量方式的結(jié)果,也是其最便利的地方。 ·end· |
|