在轉(zhuǎn)錄組高通量測序數(shù)據(jù)分析過程中,主要就是轉(zhuǎn)錄本的構(gòu)建(拼接)及表達(dá)水平的衡量,其次還包括可變剪接之類的轉(zhuǎn)錄后修飾等研究分析。因此,做過RNA-seq轉(zhuǎn)錄組測序數(shù)據(jù)分析的童鞋們一定使用過或至少聽說過Cufflinks這個軟件。 Cufflinks是加利福尼亞大學(xué)伯克利分校數(shù)學(xué)和計算機(jī)生物實驗室,由LiorPachter領(lǐng)導(dǎo)的StevenSalzberg’s團(tuán)隊,和馬里蘭大學(xué)生物信息和計算機(jī)生物中心的Steven Salzberg小組,以及加州理工學(xué)院的Barbara Wold實驗室聯(lián)合作用的結(jié)果。Cufflinks 利用Tophat比對的結(jié)果(alignments)來組裝轉(zhuǎn)錄本,估計這些轉(zhuǎn)錄本的豐度,并且檢測樣本間的差異表達(dá)及可變剪接。這個軟件其實是個套裝,包括四個部分分別命名為:cufflinks、cuffcompare、cuffmerge及cuffdiff。 tophat-->Cufflinks-->cuffdiff轉(zhuǎn)錄組分析大致流程如下: 第一步,利用tophat/bowtie比對結(jié)果(bam格式)及參考基因組構(gòu)建轉(zhuǎn)錄本,最終的轉(zhuǎn)錄本是以gtf格式保存的。 第二步,Cuffcompare主要是對兩個或多個轉(zhuǎn)錄本集合中轉(zhuǎn)錄本相似情況的比較,例如將第一步構(gòu)建出的轉(zhuǎn)錄本與ENSEMBL數(shù)據(jù)庫中的轉(zhuǎn)錄本進(jìn)行比較,評估轉(zhuǎn)錄本構(gòu)建情況,此外,根據(jù)構(gòu)建的轉(zhuǎn)錄本與已知ENSEMBL數(shù)據(jù)庫中的轉(zhuǎn)錄本的相對位置定義了一系列分類,例如內(nèi)含子區(qū)域、反義、基因間區(qū)域轉(zhuǎn)錄本等等近10種分類。 第三步,cuffmerge是將多個轉(zhuǎn)錄本集合合并成一套轉(zhuǎn)錄本集合,例如將在多個組織樣本中構(gòu)建的多套轉(zhuǎn)錄本合并成一套轉(zhuǎn)錄本,cuffmerge能夠很好地完成去除冗余。 第四步,cuffdiff衡量兩個或多個樣本間差異表達(dá)的基因,例如癌癥與正常組織間差異表達(dá)的轉(zhuǎn)錄本,此外還能衡量差異可變剪接體。 至此,轉(zhuǎn)錄本測序常規(guī)數(shù)據(jù)分析基本結(jié)束,接下來進(jìn)行實驗驗證或深入數(shù)據(jù)分析。 OK,如果對cufflinks的流程理解沒問題的話,現(xiàn)在問題來了??! 在tophat-->cufflinks --> cuffdiff流程中,第一步對每一個樣本會產(chǎn)生一個的gtf格式的轉(zhuǎn)錄本,因此若有n個樣本就會有n個gtf. 但是在對n個樣本之間做差異表達(dá)分析時,由于各樣本之間的轉(zhuǎn)錄本集合不相同。在做cuffdiff時,卻要求輸入一個gtf,以便對該gtf 文件中轉(zhuǎn)錄本在不同樣本間進(jìn)行差異分析。因此需要將n個樣本的gtf文件合并成一個。問題是,cufflinks有cuffcompare和cuffmerge兩個合并轉(zhuǎn)錄本的方法, 這是應(yīng)該選用那個?這兩個有什么區(qū)別? 個人理解及經(jīng)驗分享: 這是所有初做NGS分析的很因惑的問題,事實上,對于多個樣本構(gòu)建的多套轉(zhuǎn)錄本,如何得到統(tǒng)一的一套轉(zhuǎn)錄本,有下面三種方法: 1 在轉(zhuǎn)錄本拼接之前,把各樣本的比對bam文件合并,然后用合并的bam跑cufflinks 2 每個樣本的比對bam文件分別單獨跑cufflinks,各樣本的轉(zhuǎn)錄本構(gòu)建后,再用cuffcompare合并為一套轉(zhuǎn)錄本。 3 每個樣本的比對bam文件分別單獨跑cufflinks,各樣本的轉(zhuǎn)錄本構(gòu)建后,再用cuffmerge合并為一套轉(zhuǎn)錄本。 這三種做法區(qū)別在于: 第一種方法流程相對簡單,所有的工作都拋給cufflinks一人完成,你都不需要知道cuffmerge、cuffcompare的用法。貌似是種完美解決方案。但很大的問題是:cufflinks能處理得了最終合并的bam嗎?對于小物種的樣本還可以,但對于人,若是7,8個樣本合成的bam,cufflinks吃不銷! 第二和三種方法是類似的,都是在保留可變剪切結(jié)構(gòu)的前提下,將轉(zhuǎn)錄本合并。不同的是,cuffcompare只有A、B兩條轉(zhuǎn)錄本結(jié)構(gòu)相同的時候,才將A、B合并。而cuffmerge是A、B某些部分互相overlap,就將它倆合并。事實上,cuffmerge再做合并的時候,是把overlap的transfrag重新調(diào)用了cufflinks,合成一個transfrag。 第二和三種方法還有一個很大的不同是,cuffmerge可以帶上參考注釋有參考的進(jìn)行合并,而cuffcompare不能如此。這是cuffmerge對cuffcompare的一個優(yōu)勢。 因此,我認(rèn)為第三種方法比第二種方法是最接近于第一種方法,而第一種方法的可實現(xiàn)性較差,在現(xiàn)有條件,最完美的解決方案就是第三種方法:每個bam單獨跑cufflinks,跑完的結(jié)果再用cuffmerge合并。 |
|
來自: 昵稱29531974 > 《待分類1》