小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

stringTie:轉(zhuǎn)錄本組裝和定量工具

 生信修煉手冊(cè) 2019-12-24

對(duì)于轉(zhuǎn)錄組數(shù)據(jù)而言,最基礎(chǔ)的分析就是基因和轉(zhuǎn)錄本水平的定量了,定量就是確定一個(gè)基因或者轉(zhuǎn)錄本的表達(dá)量,其中定量的方式有很多種。

最直接的方式就是統(tǒng)計(jì)mapping到這個(gè)基因/轉(zhuǎn)錄本上的reads的個(gè)數(shù),將reads數(shù)作為表達(dá)量。我們稱這種表達(dá)量為raw count。

在raw count的基礎(chǔ)上,利用外顯子長度進(jìn)行歸一化,就得到了TPM值的定量方式。對(duì)于每個(gè)基因,將raw count除了該基因的長度(exon長度之和) , 得到長度歸一化之后的表達(dá)量。某個(gè)基因的TPM值就是利用歸一化之后的表達(dá)量,計(jì)算了一個(gè)相對(duì)豐度。具體計(jì)算公式如下,注意基因長度以k為單位


在raw count的基礎(chǔ)上,利用測序量和外顯子長度兩個(gè)因素進(jìn)行歸一化,就得到了RPKM/FPKM值的定量方式。首先將raw  count除了mapping 上的所有reads數(shù),得到相對(duì)豐度,在除以該基因長度(exon長度之和), 就可以計(jì)算出RPKM值。測試時(shí)每一條插入片段稱為一個(gè)fragment, 對(duì)于雙端測序,一個(gè)fragment 會(huì)得到兩條reads。

RPKM和FPKM 唯一不同的地方在于raw count的計(jì)算,RPKM 計(jì)算的是reads 數(shù),而FPKM 值計(jì)算的是fragments 數(shù),對(duì)于單端測序, fragment 和 reads 的個(gè)數(shù)是相等的;對(duì)于雙端測序,reads 數(shù)目是fragments 數(shù)目的兩倍,對(duì)于FPKM 而言,即使雙端的兩條reads都比對(duì)上了基因組,在計(jì)數(shù)時(shí)也知計(jì)一次,因?yàn)閮蓷lreads來源于同一個(gè)fragment。

具體計(jì)算公式如下, 需要注意單位,mapping上的reads 總數(shù)以M為單位,基因長度以k為單位。

能夠進(jìn)行定量的軟件有很多,本文主要介紹stringTie這款軟件。

在早期的轉(zhuǎn)錄組數(shù)據(jù)分析中,最經(jīng)典的分析策略是tophat+cufflinks+cuffdiff, 這套分析的pipeline會(huì)給出基于FPKM值的定量結(jié)果,然后進(jìn)行差異分析,但是隨著測序數(shù)據(jù)量的提高和分析手段的發(fā)展,這套分析策略出現(xiàn)了很多的問題。

首先就是tophat的速度很慢,相比新出的比對(duì)軟件,其速度可以算得上是龜速了,同樣的數(shù)據(jù)量,hisat/star只需要半個(gè)小時(shí)就可以比對(duì)完成,tophat2至少需要5到6個(gè)小時(shí);其次,基于FPKM值得到的差異結(jié)果和實(shí)驗(yàn)手段如qPCR驗(yàn)證的一致性較差。

為了順應(yīng)測序和分析的新趨勢(shì),原本的開發(fā)團(tuán)隊(duì)對(duì)整個(gè)pipeline進(jìn)行了全面升級(jí), 用hisat 代替tophat, 用stringTie + ballgown 代替cufflinks + cuffdiff。

stringTie 可以看做是cufflinks 軟件的升級(jí)版本,其功能和cufflinks是一樣的 ,包括下面兩個(gè)主要功能

  1. 轉(zhuǎn)錄本組裝

  2. 定量

相比cuffinks, 其運(yùn)行速度更快。該軟件的官網(wǎng)如下

https://ccb./software/stringtie/index.shtml

stringTie的輸入文件為經(jīng)過排序之后的bam文件,常見用法有以下幾種

1. 對(duì)已知轉(zhuǎn)錄本進(jìn)行定量

對(duì)于模式生物,如human, mouse等,通常只需要對(duì)已知的轉(zhuǎn)錄本定量即可,用法如下

stringtie -p 10 -G hg19.gtf -o output.gtf  -b ballgown_out_dir -e align.sorted.bam

-G參數(shù)指定參考基因組的gtf文件,-o指定輸出的文件,格式也為gtf, -b指定ballgown的輸出結(jié)果目錄,這個(gè)參數(shù)是為了方便下游進(jìn)行ballgown差異分析,-e參數(shù)要求軟件只輸出已知轉(zhuǎn)錄本的定量結(jié)果。

在輸出的GTF格式的文件中,對(duì)于每個(gè)轉(zhuǎn)錄本,會(huì)給出以下3種表達(dá)量

  1. coverage

  2. TPM

  3. FPKM

2.  組裝本組裝

對(duì)于單個(gè)樣本進(jìn)行組裝,用法如下

stringtie align.sorted.bam -o assembly.gtf -p 20 -G hg19.gtf

在組裝的轉(zhuǎn)錄本中,也會(huì)給出定量的結(jié)果,對(duì)于組裝的新轉(zhuǎn)錄本和基因,默認(rèn)采用STRG加數(shù)字編號(hào)進(jìn)行區(qū)分,示例如下

gene_id "STRG.1" transcript_id "STRG.1.1"

單個(gè)樣本組裝完成后,會(huì)合并所有樣本的轉(zhuǎn)錄本組裝結(jié)果,得到一個(gè)非冗余的轉(zhuǎn)錄本集合,用法如下

stringtie --merge -o assembly.gtf -p 20 -G hg19.gtf sampleA.gtf sampleB.gtf

在合并的非冗余轉(zhuǎn)錄本中,采用MSTRG加數(shù)字編號(hào)對(duì)基因和轉(zhuǎn)錄本進(jìn)行編號(hào),示例如下

gene_id "MSTRG.2" transcript_id "MSTRG.2.2"

本質(zhì)上,stringTie只提供了轉(zhuǎn)錄本水平的表達(dá)量,定量方式包括TPM和FPKM值兩種。為了進(jìn)行raw count的定量方式,官方提供了prepED.py腳本,可以計(jì)算出raw count的表達(dá)量,用法如下

python prepDE.py -i sample_list.txt  -g gene_count_matrix.csv  -o transcript_count_matrix.csv

輸入文件為sample_list.txt, 該文件為\t分隔的兩列,第一列為樣本名稱,第二列為定量的gtf文件的路徑,示例如下

sampleA A.stringtie.gtf sampleB B.stringtie.gtf

同時(shí)輸出基因和轉(zhuǎn)錄本水平的raw count表達(dá)量值。

采用stringTie進(jìn)行定量,運(yùn)行速度快是一個(gè)優(yōu)勢(shì),同時(shí)提供raw count, FPKM, TPM 3種定量方式的結(jié)果,也是其最便利的地方。

·end·

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多