在作GSEA分析時(shí),有時(shí)候我們會(huì)使用GEO數(shù)據(jù)庫(kù)中的芯片數(shù)據(jù),使用芯片數(shù)據(jù)分析就必須要有芯片注釋文件,下面就跟大家分享如何將GEO數(shù)據(jù)庫(kù)中的注釋文件整理成GSEA軟件可以使用的芯片注釋文件。 下圖是GSEA分析需要的芯片注釋文件格式: 由上圖我們可知,芯片注釋文件需要三列,第一列是Probs Set ID(探針I(yè)D),第二列是Gene Symbol ,第三列是Gene Title ,還需要文件(文本文件)的后綴是*.chip,每行內(nèi)容不能是空的,這些就是GSEA分析需要的芯片注釋文件的特點(diǎn)。 下面是GEO數(shù)據(jù)庫(kù)注釋文件格式(是文本文件,由于是由tab分隔符分割所以可以用excel打開(kāi)): 文件的前幾行是注釋信息,仔細(xì)看還是有很多信息的,這里就不詳細(xì)說(shuō)明了,這個(gè)文件的前三列就是我們需要的內(nèi)容,只不過(guò)第二列是Gene Title ,第三列是Gene Symbol ,制作芯片注釋文件時(shí)只需要復(fù)制前三列內(nèi)容,第一步刪除注釋信息,第二步將第二列和第三列換一下前后順序,修改第一列的列名改為Probs Set ID。 最后,這個(gè)GEO數(shù)據(jù)庫(kù)注釋文件有的探針沒(méi)有對(duì)應(yīng)的Gene Title和Gene Symbol ,內(nèi)容就為空,但是芯片注釋文件要求內(nèi)容不能為空,所以我們就是用數(shù)據(jù)篩選不選擇空的內(nèi)容如下圖所示。 按照下圖紅色箭頭所示,選擇數(shù)據(jù)篩選: 一般情況下如果是空值第二列和第三列情況一致(空都空,非空都非空),選擇第二列篩選,取消空白出的對(duì)勾,點(diǎn)擊確定,篩選非空數(shù)據(jù),將篩選過(guò)的數(shù)據(jù)復(fù)制粘貼到一個(gè)新的文本中,保存即可,命名時(shí)后綴不要忘了是chip,這樣在作芯片表達(dá)數(shù)據(jù)分析時(shí)就可以使用自己制作的芯片注釋文件了。 |
|