小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

R語言實(shí)例操作分析GEO數(shù)據(jù)庫甲基化芯片

 百味科研芝士 2019-02-06

小伙伴們,上次為大家解讀了一篇GEO甲基化芯片相關(guān)的SCI文獻(xiàn)(Aberrantly methylated-diferentially expressed genes and pathways in colorectal cancer),今天,小編打算帶領(lǐng)大家用R軟件實(shí)例操作分析GEO甲基化芯片。作為目前最大的芯片數(shù)據(jù)庫,GEO數(shù)據(jù)庫提供給我們了海量的數(shù)據(jù),但是,錯(cuò)綜復(fù)雜的數(shù)據(jù)交織在一起,如何選擇數(shù)據(jù)是擺在我們面前最重要的問題,讀完今天這篇文章,我相信大家都能學(xué)會(huì)GEO甲基化芯片的分析。下面,就和大家一起跑一遍R,希望大家喜歡這篇文章!

首先是GEO甲基化芯片的下載和預(yù)處理。進(jìn)入GEO數(shù)據(jù)庫主頁,也可以通過NCBI官網(wǎng)的GEO DataSets或GEO Profiles進(jìn)入(進(jìn)入NCBI數(shù)據(jù)庫后下拉搜索框)。

主頁搜索框輸入關(guān)鍵詞“Methylation”,點(diǎn)擊search,出來兩行英語,一般選擇第一行的數(shù)字,點(diǎn)進(jìn)去。

頁面跳轉(zhuǎn)到GEO DataSets,這和NCBI中直接進(jìn)入是一樣的,直接輸入需要檢索的腫瘤,或者如下圖點(diǎn)擊Advanced后,在高級(jí)檢索中分別輸入“Colorectal cancer”和“Methylation”,根據(jù)自己的需要選擇合適的甲基化芯片。如果大家知道芯片的GSE號(hào),也可以直接根據(jù)GSE號(hào)來檢索。

例如,本帖根據(jù)研究內(nèi)容選擇了“GSE29490”這張芯片。

點(diǎn)擊芯片標(biāo)題,則可彈出這張芯片的全部注釋信息。

下拉該頁面,可以看到該芯片的探針平臺(tái)信息,樣本信息,以及矩陣文件(名字Series Matrix File(s)的TXT格式)和原始文件(TAR格式的文件)。一般選擇下載矩陣文件,如果下載原始文件,需要我們自行整理矩陣文件,還是比較麻煩的!

點(diǎn)擊Series Matrix File(s)后,選擇文件的路徑點(diǎn)擊保存。

對(duì)下載好的矩陣文件解壓,使用EXCEL表格打開,如下圖,其中感嘆號(hào)開頭的是注釋文件,將其刪除。

將注釋文件刪除后,把EXCEL里面的矩陣粘貼在txt文檔里,命名為M.txt。

同時(shí)在EXCEL中建立兩列以sample,group分組的表格,對(duì)樣本進(jìn)行分組,C為腫瘤組,T為病例組。將表格粘貼在txt文檔里面,以“group.txt”命名。

將M.txt和group.txt放在同一文件夾里,文件夾名就叫M吧,文件的準(zhǔn)備已告一段落。

接下來,就可以打開Rstdio了(和R軟件運(yùn)行一樣,本質(zhì)也是R軟件,只是界面不同),做分析之前,需要安裝甲基化芯片相關(guān)的包,這個(gè)過程一般比較慢,大概2h。而通過以下的代碼就可以實(shí)現(xiàn)安裝。對(duì)于這些包的安裝和功能,我們可以參考Bioconductor網(wǎng)站。

分析GEO甲基化芯片需要安裝如下包:

加載安裝包,設(shè)置工作目錄(注意R軟件中工作目錄需要用”\\”或“/”,不可用“\”來設(shè)置工作目錄),工作目錄直接設(shè)置M文件夾的路徑,然后讀取txt文件。

對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并輸出結(jié)果

    我們可以看出,標(biāo)準(zhǔn)化處理之前的箱線圖的中位值未處于同一水平線上。

而標(biāo)準(zhǔn)化處理后的箱線圖中所有樣本均處于同一水平線上,使各種實(shí)驗(yàn)條件下的測量可以相互比較,消除測量間的非實(shí)驗(yàn)差異。這樣所有的樣本就具有可比性了。

對(duì)芯片進(jìn)行質(zhì)量控制(QC),這里需要輸出兩幅質(zhì)量控制的圖:DensityBean圖,MDS圖。

DensityBean圖:圖中可以看出,峰值主要出現(xiàn)在0附近,說明這張芯片的甲基化水平較低。

MDS圖:選出樣本中1000個(gè)變異最大的位點(diǎn),觀察腫瘤組和對(duì)照組樣本分布情況,在我們實(shí)驗(yàn)中,對(duì)于這種分布明顯偏離組內(nèi)其他樣本的樣本要予以剔除,因?yàn)檫@樣的樣本對(duì)實(shí)驗(yàn)結(jié)果影響較大。

甲基化位點(diǎn)的差異分析

dmpFinder函數(shù),其參數(shù)設(shè)置如下,對(duì)于這些函數(shù)的設(shè)置在R軟件中輸入“?dmpFinder”,運(yùn)行代碼即跳轉(zhuǎn)到參數(shù)設(shè)置頁面,非常方便。

打開文件夾,即可看見dmpDiff命名的甲基化位點(diǎn)的表格,而我們挑選的差異甲基化位點(diǎn)的值則是根據(jù)q-val<0.05來判定的。

甲基化差異位點(diǎn)制作熱圖:這里是根據(jù)M值(甲基化的率)來做差異甲基化位點(diǎn)的熱圖。

甲基化差異區(qū)域分析

       運(yùn)行代碼后,得到名為dmrs的表格。

      我們?cè)谧黾谆町悈^(qū)域注釋時(shí)候需要五列數(shù)據(jù):chr,start,end,Ref,Alt。其中Ref,Alt這兩列數(shù)據(jù)缺失,需要手動(dòng)用0補(bǔ)充。

        補(bǔ)充好了之后,就可以對(duì)甲基化芯片差異區(qū)域進(jìn)行注釋了。

   甲基化區(qū)域的注釋,我們采用wANNOVAR網(wǎng)站(http://wannovar./),進(jìn)入主頁后需要輸入郵箱(機(jī)構(gòu)郵箱),這里小編也是在網(wǎng)上隨便機(jī)構(gòu)郵箱,這個(gè)網(wǎng)站有點(diǎn)不地道,不支持個(gè)人郵箱!當(dāng)然,只是為了使用這個(gè)網(wǎng)站,不需要郵箱來接受消息。Sample identifer欄隨便輸入英文名稱即可。將上述準(zhǔn)備好的5列數(shù)據(jù)(chr,start,end,Ref,Alt)粘貼在第三個(gè)檢索框里。下拉頁面,在Input Fomat欄里選擇ANNOVAR,然后點(diǎn)擊Submit提交數(shù)據(jù)。

大概幾分鐘的時(shí)間,注釋結(jié)束,便可下載我們剛剛注釋的甲基化區(qū)域了,其中第一行為外顯子區(qū)域結(jié)果,第二行為整個(gè)基因上面的注釋。

打開文件,我們可以看到第6列是甲基化位于基因上的位置,第7列是甲基化區(qū)域所在的基因,第8行是對(duì)甲基化基因的注釋。到這里,我們針對(duì)一張GEO甲基化分析已完成。

    當(dāng)我們得到這些甲基化的基因后,可以對(duì)這些基因進(jìn)行GO、KEGG富集分析,生存分析等,或者去聯(lián)合基因表達(dá)的芯片進(jìn)行分析。作為最大的芯片數(shù)據(jù)庫,因GEO芯片來自用戶的上傳,我們需要對(duì)芯片的質(zhì)量做質(zhì)控,并且做標(biāo)準(zhǔn)化的處理,以盡可能消除對(duì)因?qū)嶒?yàn)條件不同造成的實(shí)驗(yàn)誤差,這一點(diǎn)在TCGA數(shù)據(jù)庫中則不需要。不需要花費(fèi)經(jīng)費(fèi),只需要大家動(dòng)腦動(dòng)手就能發(fā)SCI,哈哈,這樣的GEO芯片來一打!


百味芝士

祝您豬年大吉

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多