GEO數(shù)據(jù)庫里面的數(shù)據(jù)種類比較多,經(jīng)常我們用的這個(gè)數(shù)據(jù)集和其他數(shù)據(jù)集有區(qū)別,所以就導(dǎo)致碰到這種這樣的問題。后臺(tái)經(jīng)常收到大家的疑問,今天統(tǒng)一做一個(gè)交流吧。
1、這個(gè)數(shù)據(jù)集為什么沒有GEO2R分析工具?
有時(shí)候我們?cè)谡业綌?shù)據(jù)集,然后看了分組之后,覺得這個(gè)數(shù)據(jù)和我們想要的挺符合的。想分析的時(shí)候,發(fā)現(xiàn)沒有GEO2R這個(gè)工具。例如下面這個(gè):
這個(gè)就涉及到GEO2R的使用目標(biāo)了。GEO2R只適用于表達(dá)譜芯片分析。但是GEO數(shù)據(jù)里面,并不止是包括表達(dá)譜芯片數(shù)據(jù)。還包括一些二代測(cè)序的數(shù)據(jù)。而二代的數(shù)據(jù)是不能這么簡(jiǎn)單的分析的,這也是為什么我們?cè)诘谝淮谓榻BGEO的時(shí)候就說,現(xiàn)在常規(guī)的容易入門的數(shù)據(jù)分析類型還是表達(dá)譜數(shù)據(jù)。
一般我們?cè)贕EO檢索結(jié)果的時(shí)候,如果可以用GEO2R分析的,都會(huì)顯示。
有時(shí)候我們發(fā)現(xiàn)一個(gè)數(shù)據(jù)集,里面包括多個(gè)不同的分組。而且我們還都感興趣。那能進(jìn)行進(jìn)行多組分析嘛?
這個(gè)GEO2R里面是考慮多多組之間的分析的,我們只需要在制定分組的時(shí)候,制定自己想要的分組就行了。只不過呢,在結(jié)果當(dāng)中,我們就看不到類似logFC的計(jì)算量了。其實(shí)從統(tǒng)計(jì)上來說在的話,兩組我們用的是非參,兩組以上就是方差了。統(tǒng)計(jì)方式不對(duì)返回的結(jié)果就不一樣了。所以結(jié)果當(dāng)中會(huì)包括一個(gè)F值。
3、如果有兩個(gè)數(shù)據(jù)集能一起分析嘛?
我們經(jīng)常在找自己課題相關(guān)的數(shù)據(jù)的時(shí)候,經(jīng)常能找到好多數(shù)據(jù)集。統(tǒng)計(jì)學(xué)上說,樣本量越大結(jié)果越準(zhǔn)確嘛。那能融合到一起用GEO2R分析嘛?答案是,不能。。。。
由于GEO2R是基于GEO數(shù)據(jù)庫設(shè)計(jì)的,所以并沒有提供上傳數(shù)據(jù)分析的功能,所以這個(gè)時(shí)候就不能融合到一起來進(jìn)行分析了。另外呢,就算我們有別的分析方法,比如知道如果用R語言來進(jìn)行分析的話,也不能單純的把數(shù)據(jù)集下載下來然后融合到一起分析的。因?yàn)椴煌瑪?shù)據(jù)集在做檢測(cè)數(shù)據(jù)的時(shí)候,當(dāng)時(shí)檢測(cè)的時(shí)候溫度,環(huán)境,機(jī)器的狀態(tài)等因素不同,所以就導(dǎo)致兩者之間可能存在一定的整體的偏差。我們稱這種叫做批次效應(yīng)。如果不去掉批次效應(yīng)就硬融合到一起。那結(jié)果往往會(huì)出現(xiàn)很大的偏差。
所以也就是因?yàn)椴荒芎?jiǎn)單的進(jìn)行硬融合,好多在找到相同數(shù)據(jù)集的時(shí)候,但又不想去進(jìn)行去批次的操作的時(shí)候,都選了去交集的分析方式。這個(gè)也算是有一定道理的。畢竟既然兩者個(gè)數(shù)據(jù)集之間是又偏差的。但是那我自己數(shù)據(jù)集內(nèi)做出來的差異基因,然后再取交集就可以了吧。這也是為什么很多文章里面會(huì)有Venn圖:手把手教你畫不一樣的韋恩圖。如果確實(shí)想融合多個(gè)數(shù)據(jù)集分析,但是又不會(huì)處理批次效應(yīng)的話。那推薦我們NetwordAnalyst(https://www./)這個(gè)數(shù)據(jù)庫可以幫我們?nèi)サ襞涡?yīng)來進(jìn)行差異分析的。
有很多表達(dá)譜芯片我們?cè)诜治鲋?,都可以在分析結(jié)果里面看到相對(duì)應(yīng)的基因名。
但是有時(shí)候我們?cè)诜治鐾暌恍┬酒慕Y(jié)果之后,并沒有看到基因名。例如下面GSE111762這個(gè)數(shù)據(jù)集。我們分析后是這樣的:
結(jié)果里面只顯示了另外一個(gè)ID和序列。
這是因?yàn)?,我們?cè)谑褂肎EO2R進(jìn)行分析的時(shí)候,其實(shí)是分兩部分的
基于原始數(shù)據(jù)ID的差異表達(dá)分析。
分析完之后吧ID號(hào)和注釋文件進(jìn)行匹配。如果有基因名那就匹配上了。如果沒有那就顯示其他的芯片。
對(duì)于這個(gè)數(shù)據(jù)集,我們?nèi)绻タ此麄兊淖⑨屛募脑?GPL15314)。會(huì)發(fā)現(xiàn)里面就是這樣顯示的:
類似沒有基因名的文件,可能是這個(gè)芯片在一定時(shí)間內(nèi)有專利保護(hù)。人家可以不放出基因名的。這種情況的話~
有可能是GEO注釋文件老了??赡苓@個(gè)芯片已經(jīng)發(fā)出新的注釋文件了,那這個(gè)時(shí)候就可以試著去公司網(wǎng)站上找找看。有的話,那最好了。
如果沒有,還確實(shí)想要分析這個(gè)數(shù)據(jù)的話,可以試著基于序列來進(jìn)行blast。尋找相對(duì)應(yīng)序列在blast之后對(duì)應(yīng)的基因是什么。這樣也是一種自己注釋基因的方式。不過呢,一個(gè)芯片有60000+條序列,如果只是用ncbi的blast這個(gè)網(wǎng)頁工具。。。有可能就還沒注釋完網(wǎng)頁就崩了。這個(gè)時(shí)候還是建議離線的blast工具好一些
如果連基因序列或者每一個(gè)探針對(duì)應(yīng)的基因位置信息都沒有的話。。。。那還是放棄吧。換別的吧。。。
有可能在分析某一個(gè)數(shù)據(jù)集的時(shí)候,我們?cè)谧鐾闓EO2R差異表達(dá)分析之后,然后發(fā)現(xiàn)沒有差異基因。這個(gè)時(shí)候其實(shí)首先應(yīng)該考慮的是:
自己的實(shí)驗(yàn)分組對(duì)不對(duì)?是不是自己本身的實(shí)驗(yàn)分組就有問題?
GEO2R是基于芯片的矩陣數(shù)據(jù)來進(jìn)行分析的,就是下圖的這個(gè)數(shù)據(jù)。這個(gè)數(shù)據(jù)也是作者自己上傳的,那作者上傳的時(shí)候有可能就會(huì)過濾掉一些數(shù)據(jù)了。比如說有差異的那些結(jié)果。當(dāng)然見過更厲害的,整個(gè)矩陣文件里面就沒有數(shù)據(jù)。。不過畢竟自己的數(shù)據(jù)嘛,人家怎么做都是應(yīng)該的。這個(gè)時(shí)候要是還想分析的話,可以試試下載更加原始的文件,也就是Supplementary file。不過這個(gè)東西就不能用GEO2R來分析了,就只能自己去找分析工具了,比如R語言。
6、甲基化芯片能不能用GEO2R分析
有時(shí)候我們?cè)谶M(jìn)行甲基化相關(guān)數(shù)據(jù)檢索的時(shí)候,發(fā)現(xiàn)在甲基化數(shù)據(jù)下面也是有GEO2R的分析選項(xiàng)的。
這個(gè)其實(shí)也是可以用的,只不過分析的結(jié)果是基于某一個(gè)cg探針的結(jié)果。由于甲基化是是單一cg的影響可能不會(huì)那么大,所以都推薦說整體來評(píng)估一段區(qū)域的的甲基化改變情況。如果我們是為了找某幾個(gè)cg來當(dāng)作標(biāo)志物的實(shí)話其實(shí)可以這樣來做。但是如果是要評(píng)估甲基化整體的影響話,推薦還是正規(guī)的方法。目前比較推薦的還是R語言當(dāng)中的CHAMP包來進(jìn)行一個(gè)系列流程的分析。