小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

差異基因表達-siggenes包

 Jennymgozseons 2018-03-12


前言

SAM是Significance analysisof microarrays的縮寫,SAM方法可以在不同的樣本中篩選顯著的差異表達基因,SAM提供FDR假陽性率來篩選顯著差異表達基因,SAM方法允許使用者彈性的限制閾值,根據(jù)設(shè)定的Δ(delta)值來給出不同的結(jié)果。本案例探討使用R包siggenes來實現(xiàn)SAM篩選差異表達基因的過程。


1.獲取數(shù)據(jù)

首先獲得待分析的表達數(shù)據(jù),以芯片數(shù)據(jù)GSE44988為例(https://www.ncbi.nlm./geo/query/acc.cgi?acc=gse44988),在GEO中獲得GSE44988的表達數(shù)據(jù)矩陣(Series Matrix File,如圖1所示);在其中獲得mRNA的表達數(shù)據(jù)矩陣(GSE44988-GPL7202 seriesmatrix.txt.gz,圖2所示)

GSE44988-GPL16759 seriesmatrix.txt.gz為mRNA的表達數(shù)據(jù),該芯片為Agilent-014868Whole Mouse Genome Microarray 4x44K G4122F(GPL7202)。GSE44988的mRNA數(shù)據(jù)包括DisColoEpithelium_AOM、DisColoEpithelium_AOMDSS、DisColoEpithelium_DSS和DisColoEpithelium_Control構(gòu)成的4個樣本的3次重復(fù),共12列數(shù)據(jù)。


2.安裝siggenes包

siggenes基于R語言編寫的軟件包,安裝方法:在R環(huán)境中的安裝方法如下,輸入命令:

## try http:// if https:// URLs are not supported

source('https:///biocLite.R')

biocLite('siggenes')

即可安裝R包siggnes;

browseVignettes('siggenes')

可在R環(huán)境中查看當(dāng)前安裝的siggenes包的版本以及說明名文檔。

然后利用library(siggenes)來載入安裝好的siggenes。

 

3.導(dǎo)入表達矩陣

這需要預(yù)先做好表達譜矩陣的標準化等過程,獲得一個數(shù)據(jù)矩陣,

read.table('data_matrix.txt',sep='\t',header=TRUE,quote='\'')->data

導(dǎo)入R中的數(shù)據(jù)共有12個樣本(GSM1092784…GSM1093795),以其中6個樣本為例,3個DisColoEpithelium_AOM和3個DisColoEpithelium_Control的樣本,分析AOM與Control組的差異表達基因:

as.character(data$probe)->data$probe

data[,c(1,2:4,11:13)]->data0

獲得數(shù)據(jù)矩陣data0,包含ID號(第1列)、AOM組的表達數(shù)據(jù)(第2-4列,case組)和Control組的表達數(shù)據(jù)第(11-13列,control組)。


4.差異表達分析

rep(c(1,0),c(3,3))->row0

row0是對樣本的分組,case組用1表示,control組用0表示。

利用sam計算獲得的p value和fold change,可繪制火山圖(圖3),展示上調(diào)表達的基因(p value < 0.05,fold change >= 2,綠色點表示),下調(diào)表達的基因(p value < 0.05,fold change <= 0.5,紅色點表示)。

使用FDR假陽性率來篩選顯著差異表達基因更為精確,可設(shè)定FDR值,利用findDelta函數(shù)獲得相應(yīng)的belta值:

findDelta(fdr=0.05,sam.out)

結(jié)果會給出兩組delta值,我們選選擇FDR首先小于0.05的delta值,即,delta=3.880302,此時可獲得2466個差異表達基因。

也可查看delta值區(qū)間內(nèi)取值以及對應(yīng)的FDR和獲得差異表達基因個數(shù)的值:

print(sam.out,seq(3,4,0.1))

當(dāng)設(shè)定FDR=0.05時,delta=3.880302,輸出該閾值下的差異表達基因:

sam2excel(sam.out,delta=3.880302,file='outfile.csv')  


4. 可視化SAM結(jié)果

繪制Delta值與FDR和顯著差異基因的個數(shù)之間的曲線(圖4):

plot(sam.out)

左邊的圖為選擇Δ參數(shù)時對應(yīng)的fdr的曲線,右邊的圖為選擇Δ參數(shù)時對應(yīng)的差異表達基因數(shù)目曲線。

plot(sam.out,dalta=3.880302)

展示當(dāng)FDR=0.05時,參數(shù)delta為3.880302,此時的差異表達基因的結(jié)果,,綠色的點代表差異表達基因(圖5)。

對于轉(zhuǎn)錄組RNA-seq數(shù)據(jù)的差異表達分析,可先將RNA-seq數(shù)據(jù)進行表達水平的定量,例如,StringTie、Cufflinks,利用計算好表達水平的RNA-seq數(shù)據(jù)矩陣進行差異基因的識別;另外,Ballgown和Cufflinks也可進行差異表達的識別。DESeq(DESeq2)和EdgeR是專門針對轉(zhuǎn)錄組測序數(shù)據(jù)的差異表達基因識別的R包,但二者都是基于非負整數(shù)read count值矩陣的輸入,htseq –count可對比對結(jié)果SAM格式的文件(SAM formattedaligrment_files )進行read的計數(shù),featureCounts也可進行RNA-Seq數(shù)據(jù)的read計數(shù),輸入文件支持SAM和BAM,自動識別輸入文件格式;另外,coverageBED和summarizeOverlaps等也可進行read的計數(shù)。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多