GEO數(shù)據(jù)庫中的數(shù)據(jù)是公開的,很多的科研工作者會下載其中的數(shù)據(jù)自己去分析,其中差異表達(dá)分析是最常見的分析策略之一,為了方便大家更好的挖掘GEO中的數(shù)據(jù),今天給大家介紹一個免費(fèi)工具, 可以方便的進(jìn)行差異分析。 多個GEO數(shù)據(jù)聯(lián)合分析 1.在注釋平臺中,包含有g(shù)enesymbol,直接進(jìn)行常規(guī)的轉(zhuǎn)換,轉(zhuǎn)換方法與之前的轉(zhuǎn)換方法相同。2.利用probe2symbol,將探針I(yè)D轉(zhuǎn)換為genesymbol。3.某些測序數(shù)據(jù)里,不包含有g(shù)enesymbol注釋,但是包含有g(shù)enebank ID,我們可以先將探針I(yè)D轉(zhuǎn)換為GB ID,再將GB ID轉(zhuǎn)換成genesymbol。4.接下來,將GB ID轉(zhuǎn)換成genesymbol,需要文件為gb2symbol.pl以及GB ID注釋文件。直接運(yùn)行g(shù)b2symbol程序,即可將GB ID轉(zhuǎn)換成genesymbol,并生成genematrix2文件。1.將ID轉(zhuǎn)換完成的兩個芯片文件名字各自改為芯片的GSE號碼,并記住每個芯片中樣本總數(shù),正常樣本數(shù)和腫瘤樣本數(shù),因?yàn)楹罄m(xù)整合芯片及差異分析需要用到這些信息。2.接下來中cmd中運(yùn)行合并代碼。首先輸入perl,調(diào)用perl程序,然后輸入文件名稱,文件輸入順序不能出錯,因?yàn)殛P(guān)系到合并后樣本排序。3.運(yùn)行完成后,在文件夾中會出現(xiàn)merge文件,即合并后的表達(dá)數(shù)據(jù)。4.在獲得合并后的表達(dá)文件后,由于不同平臺,不同芯片的測序方式,需要對整合后的芯片表達(dá)數(shù)據(jù)進(jìn)行批次矯正。批次矯正中需要用到sva包和limma包,需要修改運(yùn)行路徑,樣本數(shù)目及正常組和疾病組的樣本數(shù)目。5.運(yùn)行完成后,在文件夾中會獲得一個芯片的文件,名字為normalize.txt。即矯正后的表達(dá)矩陣。1.接下來,就可以對整合后的數(shù)據(jù)進(jìn)行差異分析了。同之前對單個芯片進(jìn)行差異分析一樣,需要修改運(yùn)行路徑,樣本數(shù)目,logFC和adjustP可以自行設(shè)定。2.運(yùn)行完成后,即可獲得差異基因情況,文件和單芯片差異分析一樣,包括diff,up,down,火山圖等文件。BRB工具進(jìn)行GEO數(shù)據(jù)差異分析 今天介紹一個好用的工具:BRB-ArrayToolshttps://linus.nci./BRB-ArrayTools/這個是TCGA官網(wǎng)上附帶的一個工具,需要下載安裝安裝后會添加到Excel上,在Excel加載項(xiàng)中可以直接使用1.打開后,我們直接輸入GSE85841登錄號E858412.單擊后在下面的界面中選擇Next:這樣數(shù)據(jù)就導(dǎo)進(jìn)來了3.這里我們可以設(shè)置最小閾值,默認(rèn)值是10;標(biāo)準(zhǔn)化方法是quantile,我們選擇默認(rèn)4.這里可以設(shè)置差異的倍數(shù),默認(rèn)的是1.5倍5.我們直接選擇默認(rèn)后單擊OK就好了,共有24387個基因符合條件用默認(rèn)的:Annotatedata with Bioconductor packages7.再選擇基因symbol和物種即可,這樣注釋就好了9.這樣我們就能看到結(jié)果了,這里既有FDR,Pvalue,又有倍數(shù),還有基因的信息
|