今天我們對(duì)概率圖模型(Probabilistic Graphical Model,PGM)做一個(gè)總結(jié)。 概率圖模型,是指一種用圖結(jié)構(gòu)來(lái)描述多元隨機(jī)變量之間條件獨(dú)立關(guān)系的概率模型。 它提出的背景是為了更好研究復(fù)雜聯(lián)合概率分布的數(shù)據(jù)特征,假設(shè)一些變量的條件獨(dú)立性,由此我們把概率圖模型分為有向圖和無(wú)向圖,并且介紹了它們的模型表示、條件獨(dú)立性。 有向圖模型又稱貝葉斯網(wǎng)絡(luò)或信念網(wǎng)絡(luò),其聯(lián)合概率分布可以分解為每個(gè)隨機(jī)變量Xk的局部條件概率的乘積形式: 貝葉斯網(wǎng)絡(luò)的條件獨(dú)立性體現(xiàn)在三種形式:tail-to-tail,head-to-tail,head-to-head。 無(wú)向圖模型又稱馬爾科夫隨機(jī)場(chǎng)或馬爾科夫網(wǎng)絡(luò),它的聯(lián)合概率分布由Hammersley Clifford定理保證,能夠因子分解為定義在最大團(tuán)上的正函數(shù)的乘積: 馬爾科夫隨機(jī)場(chǎng)的條件獨(dú)立性體現(xiàn)在局部馬爾可夫性、全局馬爾可夫性和成對(duì)馬爾可夫性,他們是相互等價(jià)的: 接著我們介紹了判斷變量條件獨(dú)立性的方法——D分離,最后我們得到更一般的算法來(lái)確定以下形式之一的獨(dú)立性問(wèn)題:
文章鏈接: 概率圖模型只是為了簡(jiǎn)便研究模型方便而提出的工具,通常我們把得到聯(lián)合概率分布參數(shù)的過(guò)程稱為L(zhǎng)earning問(wèn)題,得到參數(shù)后,最終要進(jìn)行推斷,稱為Inference問(wèn)題,一般情況下,推斷問(wèn)題分為精確推斷和近似推斷。 精確推斷有變量消除法(VE)和信念傳播法(BP)。變量消除法的思想,它的核心是每次對(duì)一個(gè)變量求積分。 VE算法存在很明顯的兩個(gè)缺點(diǎn):計(jì)算步驟無(wú)法存儲(chǔ);消除的最優(yōu)次序是一個(gè)NP-hard問(wèn)題。因此要對(duì)此算法進(jìn)行改進(jìn),得到信念傳播算法(BP),該算法的流程主要有三步: step1:任取?個(gè)節(jié)點(diǎn) 作為根節(jié)點(diǎn) step2:對(duì)這個(gè)根節(jié)點(diǎn)的鄰居中的每?個(gè)節(jié)點(diǎn),收集信息 step3:對(duì)根節(jié)點(diǎn)的鄰居,分發(fā)信息 近似推斷又分為確定性近似和隨機(jī)性近似。 很多情況,無(wú)法用最大似然估計(jì)(MLE)直接求得參數(shù),模型由一些不可觀測(cè)的變量決定,它們無(wú)法直接觀測(cè),需要引入隱變量來(lái)定義它們。通常情況可以用期望最大化(EM算法)求解,它是一種迭代算法,主要思想是把一個(gè)難于處理的似然函數(shù)最大化問(wèn)題用一個(gè)易于最大化的序列取代,而其極限是原始問(wèn)題的解。 E步本質(zhì)是求隱變量z的后驗(yàn)分布p(z|x,θ),想方設(shè)法把隱變量z積分掉,M步求似然函數(shù)最大值的參數(shù)θ。 變分推斷(VI)是一種確定性近似方法,它的初始算法是基于平均場(chǎng)假設(shè)理論,不過(guò)該算法存在兩個(gè)局限:假設(shè)太強(qiáng),期望的積分可能無(wú)法計(jì)算。由此對(duì)算法改進(jìn),得到隨機(jī)梯度變分推斷(SGVI),利用重參數(shù)技巧和蒙特卡洛采樣得到目標(biāo)函數(shù)的梯度,進(jìn)而采取梯度下降得到近似解。 隨機(jī)性近似推斷的典型是馬爾科夫鏈蒙特卡洛方法(MCMC),主要思想是通過(guò)構(gòu)建馬爾可夫鏈概率序列,使其收斂到平穩(wěn)分布p(z)。 蒙特卡洛采樣是一種隨機(jī)模擬方法,核心是求解x的概率分布p(x),以及如何基于概率分布去采集n個(gè)樣本點(diǎn)。采樣的目標(biāo)是采集到的樣本能夠代表總體,要滿足兩點(diǎn):
常用的采樣方法有概率分布采樣(CDF Sampling)、拒絕采樣(Rejection Sampling)和重要性采樣(Importance Sampling)。 馬爾可夫鏈是一種時(shí)間和狀態(tài)都是離散的隨機(jī)變量序列,它由狀態(tài)空間和轉(zhuǎn)移矩陣定義,通常情況我們研究齊次馬爾可夫鏈(未來(lái)狀態(tài)的條件概率分布僅依賴于現(xiàn)在狀態(tài))。 平穩(wěn)分布就是表示在某一個(gè)時(shí)刻后,分布不再改變。我們通過(guò)蚱蜢的例子來(lái)深入介紹了平穩(wěn)分布,它表示了停留在某一狀態(tài)的概率與從隨機(jī)采樣的前期狀態(tài)轉(zhuǎn)移到它的概率相同。 但并不是所有馬氏鏈都是平穩(wěn)分布,所以我們想找到一種構(gòu)建有平穩(wěn)分布的馬氏鏈。這就引入了平穩(wěn)分布的充分條件——細(xì)致平衡。 細(xì)致平衡條件將平穩(wěn)分布的序列和?爾可夫鏈的轉(zhuǎn)移矩陣聯(lián)系在?起,把轉(zhuǎn)移矩陣作為提議矩陣(提議函數(shù)),通過(guò)它可以不斷?成樣本點(diǎn),就可以完成采樣了,這個(gè)就是MCMC。主要用到MH算法,面對(duì)高維空間的話,用到MH的優(yōu)化算法——Gibbs采樣 文章傳送門: 最簡(jiǎn)單的圖模型是樸素貝葉斯,它是一個(gè)強(qiáng)假設(shè):即給定y的情況下,特征之間相互獨(dú)立: 引?單個(gè)隱變量后,發(fā)展出了高斯混合模型(GMM) : 如果單個(gè)隱變量變成序列的隱變量,就得到了動(dòng)態(tài)空間模型(Dynamic Model): 引?齊次馬爾科夫假設(shè)和觀測(cè)獨(dú)立假設(shè)就有隱馬爾科夫模型(HMM),卡爾曼濾波和粒子濾波. HMM的隱狀態(tài)假設(shè)是離散的,卡爾曼濾波的隱狀態(tài)假設(shè)是連續(xù)的,但觀測(cè)變量服從高斯分布,而粒子濾波是非線性非高斯情況下的動(dòng)態(tài)模型。 為了打破觀測(cè)獨(dú)立性,引?了?種最大熵馬爾科夫模型(MEMM),它把最大熵原理與隱馬爾科夫模型結(jié)合: 為了克服 MEMM 中的局域問(wèn)題,?引?了條件隨機(jī)場(chǎng)(CRF),CRF 是?個(gè)?向圖,其中,破壞了?次?爾可夫假設(shè),如果隱變量是?個(gè)鏈?zhǔn)浇Y(jié)構(gòu),那么?叫線性鏈 CRF。 在?向圖的基礎(chǔ)上,引?隱變量得到了玻爾茲曼機(jī),這個(gè)圖模型的概率密度函數(shù)是?個(gè)指數(shù)族分布。對(duì)隱變量和觀測(cè)變量作出?定的限制,就得到了受限玻爾茲曼機(jī)(RBM) 我們看到,不同的概率圖模型對(duì)下??個(gè)特點(diǎn)作出假設(shè): 1. 方向-邊的性質(zhì) 2. 離散/連續(xù)/混合-點(diǎn)的性質(zhì) 3. 條件獨(dú)立性-邊的性質(zhì) 4. 隱變量-點(diǎn)的性質(zhì) 5. 指數(shù)族-結(jié)構(gòu)特點(diǎn) 此外,我們介紹五種聚類算法:基于質(zhì)心的K-means算法,基于概率分布的GMM算法,基于密度的DBSCAN算法,基于無(wú)向圖的譜聚類,以及基于層次聚類的BIRCH算法,其中K-means可以看成GMM的特殊情形。 最后,我們很久前介紹過(guò)了貝葉斯線性回歸和高斯過(guò)程回歸(GPR),它也可以看成概率圖模型,我們是專門為了介紹一種調(diào)參方法而提前介紹這兩個(gè)模型——貝葉斯優(yōu)化(BOA),它可以在無(wú)法確定函數(shù)表達(dá)式的前提下,找到函數(shù)的最值點(diǎn)。 文章傳送門: 隱馬爾可夫模型(Baum Welch算法與Viterbi算法) 線性動(dòng)態(tài)系統(tǒng)LDS(別名:卡爾曼濾波) 對(duì)于上面的概率圖模型,我們有部分給出了編程實(shí)現(xiàn),有部分還沒(méi)有,以后會(huì)陸續(xù)介紹。目前重點(diǎn)是把原理介紹清楚,對(duì)機(jī)器學(xué)習(xí)有個(gè)整體把握。熟悉這些工具,加上其原理的思想,在我們工作中靈活應(yīng)用,希望對(duì)親愛(ài)的讀者你有用! 我們不久后開(kāi)始深度學(xué)習(xí)的內(nèi)容,再難,我也想你一起學(xué)算法?。?! |
|