小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘?qū)n} | GEO芯片探針注釋

 心隨所愿zh 2018-02-09

GEO數(shù)據(jù)庫中

https://www.ncbi.nlm./geo/

存儲著大量的來源于各種平臺(Platforms)的數(shù)據(jù):



基于Technology,又可分為以下幾大類:



芯片主要以Affymetrix、Agilent、Illumina(對!Illumina不只會測序)這三家為主,而基于不同的使用目的和技術(shù)革新,每家又發(fā)布了一系列的芯片平臺,以Affy為例,在GEO數(shù)據(jù)庫中共有1200+個平臺(每個平臺在GEO中對應(yīng)一個GPL*編號):


注:Affymertix檢測樣本量最多的10個平臺,其中HG-U133_Plus_2已達到100000+個樣本!


對于GEO中的每套芯片數(shù)據(jù)(每套數(shù)據(jù)在GEO中對應(yīng)一個GSE*編號),其都會對應(yīng)一個或多個平臺,即數(shù)據(jù)由一個或多個芯片平臺產(chǎn)生并放置在同一個GSE*編號下。


以GSE3933為例,該數(shù)據(jù)集收錄由3個平臺(GPL2695、GPL3044、GPL3289)檢測的共計112個樣本的基因表達數(shù)據(jù):


雖說是基因表達數(shù)據(jù),但是GEO數(shù)據(jù)庫中極少可以直接下載到基因水平的表達數(shù)據(jù),基本上都需要經(jīng)過數(shù)據(jù)的預(yù)處理或是簡單的探針對應(yīng)基因的操作,所以繞不開的步驟就是得到探針與基因的對應(yīng)關(guān)系。當(dāng)然對于不同公司、不同類別的芯片,其探針命名方式,以及最終與基因的對應(yīng)關(guān)系是有區(qū)別的,所以如何得到探針注釋將是生信分析前必須要考慮的問題。


小編列舉3種方式供大家參考:

1、GEO數(shù)據(jù)庫在線下載:

以上示GPL2695平臺為例,其具體信息可以通過如下鏈接查看:

https://www.ncbi.nlm./geo/query/acc.cgi?acc=GPL2695

頁面下拉可見探針注釋信息,如下:



可見共有44160個探針記錄,兩種方式可下載,View full table:


第一列即探針名,也常為GSE*_series_matrix.txt的第一列,其后則是每個探針的具體注釋信息。

而點擊Annotation SOFT table會直接下載一個壓縮文件


ftp://ftp.ncbi.nlm./geo/platforms/GPL2nnn/GPL2695/annot/GPL2695.annot.gz

解壓后可用notepad++等文本編輯軟件打開,再拷貝到excel中查看,格式如下:


這款芯片是十幾年前的芯片,其實對于大多數(shù)芯片來講,View full table中即可得到探針對應(yīng)的基因,所以如果View full table中剛好沒有,則可以下載Annotation SOFT table文件試試!


實在不行,還可參考將View full table中的GB_LIST轉(zhuǎn)化為Gene Symbol:

https://support./p/61827/


此種下載探針注釋文件的好處在于,每套數(shù)據(jù)都會給定探針的注釋信息,不用考慮從其他地方苦苦尋找,所以下載GEO數(shù)據(jù)的時候就可以順便下載探針注釋文件!


2、Bioconductor Annotation Packages

https:///packages/release/data/annotation/

部分注釋包如下:


如上就是比較常見的幾款A(yù)ffy芯片的探針注釋包,對于后續(xù)用R進行統(tǒng)計分析的小伙伴來說,bioconductor中收集的各種探針注釋包是個不錯的選擇,使用select函數(shù)即可從注釋包中輕松提取探針對應(yīng)的基因信息!


3、biomaRt

http://www./packages/release/bioc/html/biomaRt.html

基于多種數(shù)據(jù)庫進行數(shù)據(jù)轉(zhuǎn)換:


所以,biomaRt的全面和強大并不僅僅局限于探針到基因的對應(yīng)關(guān)系,甚至在生信分析過程中你會經(jīng)??吹交蛴玫剿?,當(dāng)然,你所能用它解決的問題取決于你對其了解的程度!

library(biomaRt)

mart = useMart('ensembl', dataset = 'hsapiens_gene_ensembl')

查看biomaRt中集成的Affy注釋包:

知道了數(shù)據(jù)的平臺就可以做探針-基因提取啦,如affy_hg_u95b:

probes2genes = getBM(attributes = c('affy_hg_u95b', 'hgnc_symbol'), filters = 'affy_hg_u95b', values = probes, mart = mart)


當(dāng)然,能做探針注釋的工具多如牛毛,比如大名鼎鼎的DAVID,GSEA等工具都集成了ID convert的功能,這些工具的區(qū)別在于其所基于的數(shù)據(jù)庫,所以不同工具得到的結(jié)果可能會有一些差異,小編在鉆了幾次牛角尖之后放棄了尋找所謂注釋最好最全的方法,還是用的順手就好! 


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多