新知識(shí)關(guān)于對于生信學(xué)習(xí)的反思,最近一直接觸大量的新知識(shí),說實(shí)話,很難,因?yàn)檫@些新知識(shí)沒有辦法和我現(xiàn)有的知識(shí)形成聯(lián)系,所有的概念都是新的,如果我要記筆記,參考的文章為十,那我?guī)缀跻咽空硐聛?,這讓我的心態(tài)很不好。 原理及目的基因富集分析(GeneSet Enrichment Analysis,GSEA)一種對基因進(jìn)行富集分析的方法,檢驗(yàn)已知功能的基因集(即gene set,可以是從GO/KEGG/hallmark/MsigDB中拎出的某一特定類別的基因集合,也可以是自定義的功能基因集合),在一個(gè)依據(jù)與表型的相關(guān)度進(jìn)行排序的基因列表(即兩組樣品的表達(dá)譜數(shù)據(jù),依據(jù)基因在兩種表型中的表達(dá)量的高低進(jìn)行排序,因未對基因進(jìn)行顯著差異的篩選,因而可以將全部基因與不同表型的相關(guān)性均考慮進(jìn)去)中是隨機(jī)排列還是主要集中在列表的頂部或底部。若研究的已知功能基因集是非隨機(jī)分布的,則說明該已知功能基因集與表型相關(guān),根據(jù)其基因的集中情況,則可以推斷出該已知的功能具體和哪種表型更為接近。 分類GO富集分析Gene Ontology: 描述基因的層級(jí)關(guān)系【基于ORA算法】可以算得上是高通量數(shù)據(jù)分析的標(biāo)配,轉(zhuǎn)錄組、甲基化、ChIP-seq、重測序等,都會(huì)用到對一個(gè)或多個(gè)集合的基因進(jìn)行功能富集分析,來找這個(gè)基因集的功能偏好性 條目標(biāo)準(zhǔn)定義id:也就是GO編號(hào),如:GO:0031985 條目之間的關(guān)系有向無環(huán)圖 有向無環(huán)圖
有向指的是term之間的單向指向性關(guān)系,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器,規(guī)定A是B,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn) 富集氣泡圖
條形圖表示三個(gè)分類的前多少條目對應(yīng)基因的數(shù)量 KEGGKyoto Encyclopedia of Genes and Genomes: 系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫【基于ORA算法】 包括代謝通路(KEGG PATHWAY)、藥物(KEGG DRUG)、疾?。↘EGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因組(KEGG GENOME)等等 命名規(guī)則K(大寫) +num基因ID號(hào),表示所有同源物種中具有相似結(jié)構(gòu)或功能的一類同源蛋白,如:K04456表示絲氨酸蛋白激酶; KEGGpathview
主要看顏色:紅色表示上調(diào)的差異基因,綠色表示下調(diào),白色的表示沒有差異基因成功注釋 KEGG條形圖
挑選顯著分析的前20左右的pathway進(jìn)行展示
GSEAGene Set Enrichment Analysis 基因集富集分析,用于評估一個(gè)基因集的基因在表型相關(guān)度排序中的分布趨勢,進(jìn)而判斷它們對表型的貢獻(xiàn)
首先將我們要研究的基因集里的基因按照差異倍數(shù)或者差異顯著性P值等進(jìn)行排序,再和已知功能的基因集進(jìn)行對比,看后者在前者的分布情況,然后根據(jù)富集得分(ES值)去判斷我們要研究的基因集是不是和我們關(guān)注的通路相關(guān)。 GSEA富集圖像
|
|