GEO數(shù)據(jù)庫是當(dāng)今最大、最全面,公開的基因表達(dá)數(shù)據(jù)資源,上面包含不同分組的臨床樣本的多個(gè)基因的表達(dá)量水平信息,比如腫瘤組織和正常組織的基因表達(dá)差異,我們可以認(rèn)為:那些在腫瘤組織中高表達(dá)的基因很可能和腫瘤發(fā)生轉(zhuǎn)移相關(guān),由此指導(dǎo)我們的課題方向,課題思路,甚至寫出一篇文章。 而這一切都是現(xiàn)成的,并不需要你花錢自己去測(cè)序,甚至不用做實(shí)驗(yàn),所以利用Geo數(shù)據(jù)庫這種“零成本”發(fā)文章的方法讓很多臨床的小伙伴屢試不爽。 由上可知,要利用這個(gè)數(shù)據(jù)庫的數(shù)據(jù),首先要下載到樣本信息(腫瘤還是正常組織)和基因表達(dá)信息(基因表達(dá)量),對(duì)數(shù)據(jù)的下載,目前GEO數(shù)據(jù)庫提供的下載主要有兩種方式: 一、原始數(shù)據(jù)下載 二、處理好的矩陣下載 很遺憾,以上兩種方式下載的數(shù)據(jù)都不能一步到位到后續(xù)的分析中,對(duì)于初涉生信的同學(xué)來說,不同測(cè)序平臺(tái),芯片平臺(tái),不同探針對(duì)應(yīng)形式復(fù)雜,更是對(duì)數(shù)據(jù)處理一頭霧水。GEO芯片數(shù)據(jù)轉(zhuǎn)換器旨在提供一個(gè)一步到位的方法將提取GEO芯片數(shù)據(jù)的樣本信息和基因表達(dá)數(shù)據(jù),工具視圖如下: 從圖中可以看出,界面極其簡(jiǎn)潔,一看就會(huì)。 step1:導(dǎo)入從GEO下載好的數(shù)據(jù) step2:點(diǎn)擊導(dǎo)出樣本信息(臨床信息,比如是腫瘤組織還是正常組織,分期等,便于分組) step3:選擇要轉(zhuǎn)換的ID(比如探針轉(zhuǎn)換gene symbol),選擇需要提取的數(shù)據(jù)列 step4:導(dǎo)出數(shù)據(jù)矩陣(基因表達(dá)信息,比如這個(gè)樣本某個(gè)基因的表達(dá)量高低) 由以上處理后,不同探針都可以轉(zhuǎn)換成統(tǒng)一的不同組織對(duì)應(yīng)相應(yīng)的基因表達(dá)量數(shù)據(jù),也就可以實(shí)現(xiàn)推文開頭說的目的了。 工具下載鏈接:http://gap./tool/8/(點(diǎn)擊閱讀全文直達(dá)) 以GEO芯片數(shù)據(jù)GSE14520為例(不懂哪里下,點(diǎn)這里): 首先從GEO下載GSE14520數(shù)據(jù): 從圖中可以看出共有488個(gè)樣本,我們選擇MINiML格式的數(shù)據(jù)(軟件只支持該格式),下載完: 然后我們將該文件導(dǎo)入到軟件中: 從圖中可以看出,軟件將該文件解析出來兩個(gè)平臺(tái)的數(shù)據(jù)GPL571和GPL3921,樣本數(shù)與下載時(shí)頁面顯示一致,我們點(diǎn)擊導(dǎo)出樣本信息: 最終得到了SampleInfo.xls,打開文件看看如下: 從圖中可以看出我們成功的導(dǎo)出了樣本的臨床信息,主要表中的分號(hào),分號(hào)分割的是多次隨訪,有些樣本可能存在多次回訪,所以該信息我們使用分號(hào)分割 下面我們導(dǎo)出樣本數(shù)據(jù)矩陣,首先我們需要選擇導(dǎo)出來的矩陣中是探針形式的還是genesymbol等其他ID形式的: 如圖,我們選擇geneSymbol形式導(dǎo)出,下一步我們需要選擇導(dǎo)出的數(shù)據(jù)列,這個(gè)例子中只有兩列:Column1、Column2,從左側(cè)的表中我們可以知道Column2是數(shù)據(jù)列,所以在step2中選擇Column2,對(duì)于當(dāng)多個(gè)探針對(duì)應(yīng)一個(gè)基因是我們選擇其中位數(shù)代表該基因的表達(dá)值,當(dāng)然軟件提供了三種方式,都可以選擇,如下圖: 點(diǎn)擊導(dǎo)出數(shù)據(jù)矩陣: 這樣我們就將這套GSE數(shù)據(jù)中的GPL571平臺(tái)的43個(gè)樣本的數(shù)據(jù)導(dǎo)出來了,使用Excel打開數(shù)據(jù)Merge_GPL571.expro.txt如下: 以上對(duì)應(yīng)的是不同樣本的多個(gè)基因的表達(dá)量信息。 獲得以上2種信息后,就可以導(dǎo)入到其他生信小工具進(jìn)行各種分析,各種圖啦! |
|