小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

生信學(xué)習(xí)革命|一步提取GEO數(shù)據(jù)

 沙亮哥哥 2017-10-12

GEO數(shù)據(jù)庫是當(dāng)今最大、最全面,公開的基因表達(dá)數(shù)據(jù)資源,上面包含不同分組的臨床樣本的多個(gè)基因的表達(dá)量水平信息,比如腫瘤組織和正常組織的基因表達(dá)差異,我們可以認(rèn)為:那些在腫瘤組織中高表達(dá)的基因很可能和腫瘤發(fā)生轉(zhuǎn)移相關(guān),由此指導(dǎo)我們的課題方向,課題思路,甚至寫出一篇文章。

而這一切都是現(xiàn)成的,并不需要你花錢自己去測(cè)序,甚至不用做實(shí)驗(yàn),所以利用Geo數(shù)據(jù)庫這種“零成本”發(fā)文章的方法讓很多臨床的小伙伴屢試不爽。

由上可知,要利用這個(gè)數(shù)據(jù)庫的數(shù)據(jù),首先要下載到樣本信息(腫瘤還是正常組織)基因表達(dá)信息(基因表達(dá)量),對(duì)數(shù)據(jù)的下載,目前GEO數(shù)據(jù)庫提供的下載主要有兩種方式:

一、原始數(shù)據(jù)下載

二、處理好的矩陣下載

很遺憾,以上兩種方式下載的數(shù)據(jù)都不能一步到位到后續(xù)的分析中,對(duì)于初涉生信的同學(xué)來說,不同測(cè)序平臺(tái),芯片平臺(tái),不同探針對(duì)應(yīng)形式復(fù)雜,更是對(duì)數(shù)據(jù)處理一頭霧水。GEO芯片數(shù)據(jù)轉(zhuǎn)換器旨在提供一個(gè)一步到位的方法將提取GEO芯片數(shù)據(jù)的樣本信息和基因表達(dá)數(shù)據(jù),工具視圖如下:

從圖中可以看出,界面極其簡(jiǎn)潔,一看就會(huì)。

step1:導(dǎo)入從GEO下載好的數(shù)據(jù)

step2:點(diǎn)擊導(dǎo)出樣本信息(臨床信息,比如是腫瘤組織還是正常組織,分期等,便于分組)

step3:選擇要轉(zhuǎn)換的ID(比如探針轉(zhuǎn)換gene symbol),選擇需要提取的數(shù)據(jù)列

step4:導(dǎo)出數(shù)據(jù)矩陣(基因表達(dá)信息,比如這個(gè)樣本某個(gè)基因的表達(dá)量高低)

由以上處理后,不同探針都可以轉(zhuǎn)換成統(tǒng)一的不同組織對(duì)應(yīng)相應(yīng)的基因表達(dá)量數(shù)據(jù),也就可以實(shí)現(xiàn)推文開頭說的目的了。

工具下載鏈接:http://gap./tool/8/(點(diǎn)擊閱讀全文直達(dá))

以GEO芯片數(shù)據(jù)GSE14520為例(不懂哪里下,點(diǎn)這里):

首先從GEO下載GSE14520數(shù)據(jù):

從圖中可以看出共有488個(gè)樣本,我們選擇MINiML格式的數(shù)據(jù)(軟件只支持該格式),下載完:

然后我們將該文件導(dǎo)入到軟件中:

從圖中可以看出,軟件將該文件解析出來兩個(gè)平臺(tái)的數(shù)據(jù)GPL571和GPL3921,樣本數(shù)與下載時(shí)頁面顯示一致,我們點(diǎn)擊導(dǎo)出樣本信息:


最終得到了SampleInfo.xls,打開文件看看如下:

從圖中可以看出我們成功的導(dǎo)出了樣本的臨床信息,主要表中的分號(hào),分號(hào)分割的是多次隨訪,有些樣本可能存在多次回訪,所以該信息我們使用分號(hào)分割

下面我們導(dǎo)出樣本數(shù)據(jù)矩陣,首先我們需要選擇導(dǎo)出來的矩陣中是探針形式的還是genesymbol等其他ID形式的:


如圖,我們選擇geneSymbol形式導(dǎo)出,下一步我們需要選擇導(dǎo)出的數(shù)據(jù)列,這個(gè)例子中只有兩列:Column1、Column2,從左側(cè)的表中我們可以知道Column2是數(shù)據(jù)列,所以在step2中選擇Column2,對(duì)于當(dāng)多個(gè)探針對(duì)應(yīng)一個(gè)基因是我們選擇其中位數(shù)代表該基因的表達(dá)值,當(dāng)然軟件提供了三種方式,都可以選擇,如下圖:


點(diǎn)擊導(dǎo)出數(shù)據(jù)矩陣:


這樣我們就將這套GSE數(shù)據(jù)中的GPL571平臺(tái)的43個(gè)樣本的數(shù)據(jù)導(dǎo)出來了,使用Excel打開數(shù)據(jù)Merge_GPL571.expro.txt如下:


以上對(duì)應(yīng)的是不同樣本的多個(gè)基因的表達(dá)量信息。


獲得以上2種信息后,就可以導(dǎo)入到其他生信小工具進(jìn)行各種分析,各種圖啦!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多