小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

富集分析

 1子非我1 2021-11-21

新知識(shí)

關(guān)于對于生信學(xué)習(xí)的反思,最近一直接觸大量的新知識(shí),說實(shí)話,很難,因?yàn)檫@些新知識(shí)沒有辦法和我現(xiàn)有的知識(shí)形成聯(lián)系,所有的概念都是新的,如果我要記筆記,參考的文章為十,那我?guī)缀跻咽空硐聛?,這讓我的心態(tài)很不好。

原理及目的

基因富集分析(GeneSet Enrichment Analysis,GSEA)一種對基因進(jìn)行富集分析的方法,檢驗(yàn)已知功能的基因集(即gene set,可以是從GO/KEGG/hallmark/MsigDB中拎出的某一特定類別的基因集合,也可以是自定義的功能基因集合),在一個(gè)依據(jù)與表型的相關(guān)度進(jìn)行排序的基因列表(即兩組樣品的表達(dá)譜數(shù)據(jù),依據(jù)基因在兩種表型中的表達(dá)量的高低進(jìn)行排序,因未對基因進(jìn)行顯著差異的篩選,因而可以將全部基因與不同表型的相關(guān)性均考慮進(jìn)去)中是隨機(jī)排列還是主要集中在列表的頂部或底部。若研究的已知功能基因集是非隨機(jī)分布的,則說明該已知功能基因集與表型相關(guān),根據(jù)其基因的集中情況,則可以推斷出該已知的功能具體和哪種表型更為接近。

分類

GO富集分析

Gene Ontology: 描述基因的層級(jí)關(guān)系【基于ORA算法】可以算得上是高通量數(shù)據(jù)分析的標(biāo)配,轉(zhuǎn)錄組、甲基化、ChIP-seq、重測序等,都會(huì)用到對一個(gè)或多個(gè)集合的基因進(jìn)行功能富集分析,來找這個(gè)基因集的功能偏好性
這是一個(gè)基因本體聯(lián)合會(huì)組織(Gene Ontology Consortium)建立的數(shù)據(jù)庫,規(guī)范統(tǒng)一了對于不同物種的基因和蛋白描述。

條目標(biāo)準(zhǔn)定義

id:也就是GO編號(hào),如:GO:0031985
name:全稱,Golgi cisterna
ontology:命名分類cellular_component
definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex.Source:GOC:mah

條目之間的關(guān)系

有向無環(huán)圖

有向無環(huán)圖

有向指的是term之間的單向指向性關(guān)系,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器,規(guī)定A是B,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)
具體作用
基因分門別類放入細(xì)胞組分CC、分子功能MF和生物過程BP,分別對應(yīng)基因產(chǎn)物在那里發(fā)揮功能,怎樣發(fā)揮功能,發(fā)揮什么樣的功能
GO分析可以幫我們找到提交的基因集中各個(gè)基因是否有共同的GO條目,或者有沒有共同的上級(jí)GO條目,可以發(fā)現(xiàn)某些具有共同特點(diǎn)的基因(比如在某條共同的通路中起作用)
表現(xiàn)形式
氣泡圖表示顯著性不同的GO條目對應(yīng)的基因數(shù)量

富集氣泡圖
X軸:RichFactor,富集因子,是指前景基因集中屬于這個(gè)term的基因的數(shù)量/背景基因集中富集在這個(gè)term中所有基因的數(shù)量;
Y軸:GO term名稱;
氣泡顏色:Q值(也可以用P值繪圖),代表富集顯著程度,在這個(gè)圖形當(dāng)中,顏色越紅代表Q值越小,富集程度越高;
氣泡大?。簲?shù)量,前景基因集中屬于這個(gè)term的基因數(shù)量。
氣泡越紅越大,富集的基因數(shù)目越多,富集越顯著

條形圖表示三個(gè)分類的前多少條目對應(yīng)基因的數(shù)量
網(wǎng)絡(luò)圖可以表示顯著性較強(qiáng)的條目之間的相互關(guān)系
map圖表示顯著性較強(qiáng)的GO條目的層級(jí)關(guān)系,以樹狀圖的形式展現(xiàn)

KEGG

Kyoto Encyclopedia of Genes and Genomes: 系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫【基于ORA算法】

包括

代謝通路(KEGG PATHWAY)、藥物(KEGG DRUG)、疾?。↘EGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因組(KEGG GENOME)等等
有一套完整的KO注釋系統(tǒng)(KO是蛋白質(zhì)或酶的一個(gè)分類體系,將同一條通路上功能相似、序列相似的蛋白質(zhì)歸為一類),可完成新測序物種的基因組或轉(zhuǎn)錄組的功能注釋
因此可以將基因一個(gè)個(gè)歸置到代謝網(wǎng)絡(luò)指定位置

命名規(guī)則

K(大寫) +num基因ID號(hào),表示所有同源物種中具有相似結(jié)構(gòu)或功能的一類同源蛋白,如:K04456表示絲氨酸蛋白激酶;
ko+num代謝通路,表示特定的生物路徑,如:ko04151表示PI3K-Akt信號(hào)通路【也是我們常用的代謝通路】;
M+num表示模塊,如:M00676表示PI3K-Akt信號(hào)模塊
C+num表示化合物,如:C00533表示一氧化碳
ECx.x.x.x表示酶,如:EC2.7.11.1表示絲氨酸
R+num表示反應(yīng)名稱
舉個(gè)例子:三個(gè)字母表示物種,hsa表示Homo sapiens;具體的KO號(hào),如K12407表示和葡糖激酶glucokinase序列和功能相近的蛋白質(zhì)/酶類,當(dāng)然一個(gè)KO號(hào)有可能會(huì)對應(yīng)好幾個(gè)數(shù)字(基因登錄號(hào)),表示細(xì)胞中存在幾種不同的葡糖激酶,分別由以上幾種數(shù)字表示的基因編碼


KEGGpathview

主要看顏色:紅色表示上調(diào)的差異基因,綠色表示下調(diào),白色的表示沒有差異基因成功注釋


KEGG條形圖

挑選顯著分析的前20左右的pathway進(jìn)行展示
X軸:Gene Percent(%),柱子長短代表前景基因富集在該pathway上數(shù)目占所有前景基因的百分比。柱子上的數(shù)字為基因數(shù)量,和對應(yīng)的q值;
Y軸:Pathway名稱;
柱狀圖顏色:Q值(也可以用P值繪圖),代表富集顯著程度,顏色越深代表Q值越小,富集程度越高。

GSEA

Gene Set Enrichment Analysis 基因集富集分析,用于評估一個(gè)基因集的基因在表型相關(guān)度排序中的分布趨勢,進(jìn)而判斷它們對表型的貢獻(xiàn)
FCS算法
區(qū)別

  1. GO是先篩選基因(需要人為設(shè)定閾值),再判斷差異基因在哪些通路有富集
  2. GSEA可以考慮那些表達(dá)差異不大卻功能重要的基因?qū)ν酚绊?,相比GO和KEGG能保留更多信息

首先將我們要研究的基因集里的基因按照差異倍數(shù)或者差異顯著性P值等進(jìn)行排序,再和已知功能的基因集進(jìn)行對比,看后者在前者的分布情況,然后根據(jù)富集得分(ES值)去判斷我們要研究的基因集是不是和我們關(guān)注的通路相關(guān)。

GSEA富集圖像

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多