貝葉斯推斷是統(tǒng)計(jì)學(xué)中的一個(gè)主要問題,在許多機(jī)器學(xué)習(xí)方法中也遇到過這種問題。例如,用于分類的高斯混合模型,用于主題建模的潛在Dirichlet分布都是需要在擬合數(shù)據(jù)時(shí)解決這樣的問題的圖形模型。 同時(shí),可以注意到貝葉斯推理問題有時(shí)可能很難解決,具體取決于模型設(shè)置(假設(shè),維數(shù)......)。在大問題中,確切的解決方案確實(shí)需要經(jīng)常變得棘手的繁重計(jì)算,并且必須使用一些近似技術(shù)來克服該問題并構(gòu)建快速且可擴(kuò)展的系統(tǒng)。 在這篇文章中,我們將討論可用于解決貝葉斯推理問題的兩種主要方法:馬爾可夫鏈蒙特卡羅(MCMC),即基于采樣的方法,以及變分推理(VI),這是一種基于近似的方法。 貝葉斯推理問題在本節(jié)中,我們給出了貝葉斯推理問題,并在給出Latent Dirichlet Allocation的例子之前討論了一些計(jì)算困難,Latent Dirichlet Allocation是一個(gè)主題建模的具體機(jī)器學(xué)習(xí)技術(shù)。 什么是推論? 統(tǒng)計(jì)推斷包括根據(jù)我們觀察到的內(nèi)容來了解??我們未觀察到的內(nèi)容。換句話說,它是根據(jù)一些觀察到的變量(通常是影響)在這個(gè)人群或一個(gè)樣本中得出結(jié)論,如準(zhǔn)時(shí)估計(jì),置信區(qū)間或關(guān)于某些潛在變量(通常是原因)的分布估計(jì)的過程。 特別是,貝葉斯推斷是以貝葉斯觀點(diǎn)產(chǎn)生統(tǒng)計(jì)推斷的過程。簡(jiǎn)而言之,貝葉斯范式是一種統(tǒng)計(jì)/概率范式,其中每次記錄由不同概率分布建模的新觀察時(shí),更新由概率分布建模的先驗(yàn)知識(shí)。
一個(gè)經(jīng)典的例子是參數(shù)的貝葉斯推斷。讓我們假設(shè)一個(gè)模型,其中數(shù)據(jù)x是根據(jù)未知參數(shù)θ從概率分布生成的。我們還假設(shè)我們具有關(guān)于參數(shù)θ的先驗(yàn)知識(shí),其可以表示為概率分布p(θ)。然后,當(dāng)觀察數(shù)據(jù)x時(shí),我們可以使用貝葉斯定理更新關(guān)于該參數(shù)的先驗(yàn)知識(shí),如下所述 貝葉斯定理的圖示應(yīng)用于給定觀測(cè)數(shù)據(jù)的參數(shù)的推斷 計(jì)算困難貝葉斯定理告訴我們,后驗(yàn)的計(jì)算需要三個(gè)術(shù)語(yǔ):先驗(yàn),可能性和證據(jù)。前兩個(gè)可以很容易地表達(dá),因?yàn)樗鼈兪羌俣P偷囊徊糠郑ㄔ谠S多情況下,先驗(yàn)和可能性是明確已知的)。然而,第三項(xiàng),即歸一化因子,需要進(jìn)行計(jì)算 雖然在低維度上可以在沒有太多困難的情況下計(jì)算該積分,但是在更高維度上它可能變得難以處理。在最后一種情況下,后驗(yàn)分布的精確計(jì)算實(shí)際上是不可行的,并且必須使用一些近似技術(shù)來獲得需要知道該后驗(yàn)的問題的解決方案(例如,平均計(jì)算)。 注意到貝葉斯推理問題可能會(huì)產(chǎn)生一些其他的計(jì)算困難,例如,當(dāng)某些變量是離散的時(shí)候,組合學(xué)問題。在最常用于克服這些困難的方法中,我們發(fā)現(xiàn)馬爾可夫鏈蒙特卡羅和變分推理方法。本文后面,我們將描述這兩種方法,特別是關(guān)注'歸一化因子問題',但是應(yīng)該記住,當(dāng)面對(duì)與貝葉斯推理相關(guān)的其他計(jì)算困難時(shí),這些方法也可以是寶貴的。 為了使后續(xù)部分的內(nèi)容更加通用,我們可以觀察到,由于x應(yīng)該被賦予并且因此可以作為參數(shù),我們面臨的情況是我們?cè)讦壬嫌懈怕史植级x為歸一化因子 在接下來的兩節(jié)中描述MCMC和VI之前,讓我們用Latent Dirichlet Allocation給出機(jī)器學(xué)習(xí)中貝葉斯推理問題的一個(gè)具體例子。 貝葉斯推理例子貝葉斯推理問題自然地出現(xiàn)在例如假定概率圖形模型的機(jī)器學(xué)習(xí)方法中,并且在給定一些觀察的情況下,我們想要恢復(fù)模型的潛在變量。在主題建模中,Latent Dirichlet Allocation(LDA)方法為語(yǔ)料庫(kù)中的文本描述定義了這樣的模型。因此,給定大小為V的完整語(yǔ)料庫(kù)詞匯和給定數(shù)量的主題T,該模型假定:
該方法的目的,其名稱來自模型中假設(shè)的Dirichlet先驗(yàn),然后推斷觀察到的語(yǔ)料庫(kù)中的潛在主題以及每個(gè)文檔的主題分解。即使我們不會(huì)深入研究LDA的細(xì)節(jié),我們也可以非常粗略地說出語(yǔ)料庫(kù)中的單詞向量和z與這些單詞相關(guān)的主題向量,我們想要根據(jù)觀察到的w來推斷z貝葉斯方式: 在這里,除了歸一化因子由于巨大的維數(shù)而絕對(duì)難以處理的事實(shí)之外,我們面臨組合挑戰(zhàn)(因?yàn)閱栴}的一些變量是離散的),需要使用MCMC或VI來獲得近似解。對(duì)主題建模感興趣的讀者及其特定的底層貝葉斯推理問題可以看一下。 潛在Dirichlet分布方法的例證 馬爾可夫鏈蒙特卡羅(MCMC)正如我們之前提到的,處理貝葉斯推理問題時(shí)面臨的主要困難之一來自歸一化因子。在本節(jié)中,我們描述了MCMC采樣方法,這些方法構(gòu)成了克服該問題的可能解決方案以及與貝葉斯推理相關(guān)的其他一些計(jì)算困難。 抽樣方法 采樣方法的想法如下。讓我們首先假設(shè)我們有一種方法(MCMC)從定義到因子的概率分布中抽取樣本。然后,我們不是試圖處理涉及后驗(yàn)的難以處理的計(jì)算,而是從這個(gè)分布中獲取樣本(僅使用未歸一化的部分定義)并使用這些樣本來計(jì)算各種準(zhǔn)時(shí)統(tǒng)計(jì)數(shù)據(jù),例如均值和方差,甚至可以近似分布核密度估計(jì)。 與下一節(jié)中描述的VI方法相反,MCMC方法假定所研究的概率分布沒有模型(貝葉斯推斷案例中的后驗(yàn))。因此,這些方法具有較低的偏差但是方差較大,這意味著結(jié)果在大多數(shù)情況下獲得的成本更高,但也比我們從VI獲得的結(jié)果更準(zhǔn)確。 為了結(jié)束這一小節(jié),我們?cè)俅胃攀隽诉@樣一個(gè)事實(shí),即我們剛才描述的這個(gè)抽樣過程并不局限于后驗(yàn)分布的貝葉斯推斷,并且更一般地說,也可以用于概率分布定義到其歸一化因子的任何情況。 采樣方法(MCMC) MCMC的想法在統(tǒng)計(jì)學(xué)中,馬爾可夫鏈蒙特卡羅算法旨在從給定的概率分布生成樣本。方法名稱中的'蒙特卡羅'部分是由于采樣目的,而'馬爾可夫鏈'部分來自我們獲取這些樣本的方式。 為了生成樣本,我們的想法是建立一個(gè)馬爾可夫鏈,其靜態(tài)分布是我們想要的樣本。然后,我們可以模擬馬爾可夫鏈的一個(gè)隨機(jī)序列狀態(tài),該狀態(tài)足夠長(zhǎng)(幾乎)達(dá)到穩(wěn)定狀態(tài),然后將一些生成的狀態(tài)保留為我們的樣本。 在隨機(jī)變量生成技術(shù)中,MCMC是一種非常先進(jìn)的方法,這使得從非常困難的概率分布中獲取樣本的可能性可能僅限于乘法常數(shù)。我們可以通過MCMC獲得來自未完全標(biāo)準(zhǔn)化的分布的樣本的反直覺事實(shí)來自我們定義對(duì)這些歸一化因子不敏感的馬爾可夫鏈的特定方式。 馬爾可夫鏈蒙特卡羅方法旨在從難以概率分布生成樣本,該概率分布可以定義為一個(gè)因子。 馬爾可夫鏈的定義整個(gè)MCMC方法基于建立馬爾可夫鏈的能力,馬爾可夫鏈的靜態(tài)分布是我們想要從中采樣的。為了做到這一點(diǎn),Metropolis-Hasting和Gibbs Sampling算法都使用馬爾可夫鏈的特殊屬性:可逆性。 狀態(tài)空間E上的馬爾可夫鏈,具有由...表示的轉(zhuǎn)移概率 如果存在概率分布γ,則認(rèn)為是可逆的 對(duì)于這樣的馬爾可夫鏈,我們可以很容易地驗(yàn)證我們有 然后,γ是一個(gè)靜態(tài)分布(如果馬爾可夫鏈?zhǔn)遣豢杉s的,則唯一的分布)。 現(xiàn)在讓我們假設(shè)我們想要采樣的概率分布π僅定義為一個(gè)因子 (其中C是未知的乘法常數(shù))。我們可以注意到以下等價(jià)性 然后,具有轉(zhuǎn)移概率k的馬爾可夫鏈被定義為驗(yàn)證最后的等式將如預(yù)期的那樣具有π作為靜止分布。因此,我們可以定義具有靜止分布的馬爾可夫鏈,該概率分布π不能被明確地計(jì)算。 吉布斯采樣轉(zhuǎn)換(∞)讓我們假設(shè)我們想要定義的馬爾可夫鏈?zhǔn)荄維的,這樣 的Gibbs抽樣方法基于的是,即使聯(lián)合概率是難處理的,給其他的單個(gè)維度的條件分布,可以計(jì)算的假設(shè)?;谠撓敕ǎx轉(zhuǎn)變,使得在迭代n + 1,下一個(gè)要訪問的狀態(tài)由以下過程給出。 首先,我們?cè)赬_n的D維中隨機(jī)選擇一個(gè)整數(shù)d。然后,在給定所有其他維度保持固定的情況下,我們根據(jù)相應(yīng)的條件概率為該維度采樣新值: 給出所有其他維度的d維的條件分布。 Metropolis-Hasting過渡(∞)有時(shí)甚至涉及Gibbs方法的條件分布太復(fù)雜而無法獲得。在這種情況下,可以使用Metropolis-Hasting。為此,我們首先定義一個(gè)側(cè)轉(zhuǎn)換概率h,它將用于建議轉(zhuǎn)換。然后,在迭代n + 1,馬爾可夫鏈要訪問的下一個(gè)狀態(tài)由以下過程定義。我們首先從h繪制一個(gè)'建議的過渡'x并計(jì)算一個(gè)相關(guān)的概率r來接受它: 抽樣過程一旦定義了馬爾可夫鏈,我們就可以模擬隨機(jī)的狀態(tài)序列(隨機(jī)初始化)并保留其中的一些狀態(tài),以便獲得兩者都遵循目標(biāo)分布且獨(dú)立的樣本。 首先,為了得到(幾乎)遵循目標(biāo)分布的樣本,我們只需要考慮從生成序列的開頭足夠遠(yuǎn)的狀態(tài),幾乎達(dá)到馬爾可夫鏈的穩(wěn)定狀態(tài)(穩(wěn)定狀態(tài),理論上) ,只是漸近地達(dá)到了)。因此,第一模擬狀態(tài)不可用作樣本,并且我們將達(dá)到平穩(wěn)所需的該階段稱為老化時(shí)間。請(qǐng)注意,實(shí)際上很難知道這個(gè)老化時(shí)間有多長(zhǎng)。 其次,為了獲得(幾乎)獨(dú)立的樣本,我們不能在老化時(shí)間之后保持序列的所有連續(xù)狀態(tài)。實(shí)際上,馬爾可夫鏈定義意味著兩個(gè)連續(xù)狀態(tài)之間的強(qiáng)相關(guān)性,然后我們需要保持僅作為樣本的狀態(tài)彼此足夠遠(yuǎn)以被認(rèn)為是幾乎獨(dú)立的。實(shí)際上,可以通過分析自相關(guān)函數(shù)來估計(jì)兩個(gè)狀態(tài)之間所需的滯后幾乎是獨(dú)立的(僅適用于數(shù)值)。 因此,為了獲得遵循目標(biāo)分布的獨(dú)立樣本,我們保持生成的序列中的狀態(tài)彼此分開滯后L并且在老化時(shí)間B之后。因此,如果表示馬爾可夫鏈的連續(xù)狀態(tài) 我們只保留狀態(tài)作為樣本 MCMC采樣需要考慮時(shí)間和滯后。 變分推斷(VI)克服與推理問題相關(guān)的計(jì)算困難的另一種可能方式是使用變分推理方法,其包括在參數(shù)化族中找到分布的最佳近似。為了找到這種最佳近似值,我們遵循一個(gè)優(yōu)化過程(在系列參數(shù)上),只需要將目標(biāo)分布定義為一個(gè)因子。 近似方法 VI方法在于搜索給定族中某些復(fù)雜目標(biāo)概率分布的最佳近似。更具體地,該想法是定義參數(shù)化的分布族并且優(yōu)化參數(shù)以相對(duì)于明確定義的誤差測(cè)量獲得與目標(biāo)最接近的元素。 我們?nèi)匀徽J(rèn)為我們的概率分布π定義為歸一化因子C: 然后,在更多的數(shù)學(xué)術(shù)語(yǔ)中,如果我們表示參數(shù)化的分布族 并且我們考慮兩個(gè)分布p和q之間的誤差測(cè)量E(p,q),我們搜索最佳參數(shù) 如果我們可以在不必明確歸一化π的情況下解決這個(gè)最小化問題,我們可以使用f_ω*作為近似來估計(jì)各種數(shù)量,而不是處理難以處理的計(jì)算。實(shí)際上,變量推理方法所暗示的優(yōu)化問題應(yīng)該比直接計(jì)算(標(biāo)準(zhǔn)化,組合,......)的問題更容易處理。 與采樣方法相反,假設(shè)模型(參數(shù)化族),暗示偏差但也有較低的方差。一般來說,VI方法不如MCMC方法準(zhǔn)確,但產(chǎn)生的結(jié)果要快得多:這些方法更適合于大規(guī)模,非常統(tǒng)計(jì)的問題。 變分推斷 分布系列我們需要設(shè)置的第一件事是參數(shù)化的分布族,它定義了我們搜索最佳近似的空間。 該族的選擇定義了一種控制方法偏差和復(fù)雜性的模型。如果我們假設(shè)一個(gè)非常嚴(yán)格的模型(簡(jiǎn)單族),那么我們就有很高的偏差,但優(yōu)化過程很簡(jiǎn)單。相反,如果我們假設(shè)一個(gè)相當(dāng)自由的模型(復(fù)雜族),偏差要低得多,但優(yōu)化更難(如果不是難以處理的話)。因此,我們必須在一個(gè)復(fù)雜到足以確保最終近似質(zhì)量的家庭和一個(gè)足夠簡(jiǎn)單的家庭之間找到適當(dāng)?shù)钠胶?,以使?yōu)化過程易于處理。我們應(yīng)該記住,如果家庭中的分布不接近目標(biāo)分布,那么即使最佳近似也會(huì)產(chǎn)生不良結(jié)果。 在平均場(chǎng)變族是概率分布,其中考慮隨機(jī)向量的所有組件都是獨(dú)立的家庭。該系列的分布具有產(chǎn)品密度,使得每個(gè)獨(dú)立組分受產(chǎn)品的不同因素控制。因此,屬于平均場(chǎng)變分族的分布具有可以寫入的密度 我們假設(shè)一個(gè)m維隨機(jī)變量z。請(qǐng)注意,即使在符號(hào)中省略了它,也會(huì)對(duì)所有密度f_j進(jìn)行參數(shù)化。因此,例如,如果每個(gè)密度f_j是具有均值和方差參數(shù)的高斯,則全局密度f然后由來自所有獨(dú)立因子的一組參數(shù)定義,并且優(yōu)化在整個(gè)參數(shù)集上完成。 變分推理中的族的選擇既設(shè)置了優(yōu)化過程的難度,也設(shè)定了最終近似的質(zhì)量。 Kullback-Leibler散度一旦定義了這個(gè)家族,一個(gè)主要問題仍然存在:如何在這個(gè)家族中找到給定概率分布的最佳近似值(明確定義為其歸一化因子)?即使最佳近似顯然取決于我們考慮的誤差測(cè)量的性質(zhì),似乎很自然地假設(shè)最小化問題不應(yīng)該對(duì)歸一化因子敏感,因?yàn)槲覀兿氡容^質(zhì)量分布而不是質(zhì)量本身(必須是概率分布的單一性)。 所以,讓我們現(xiàn)在定義Kullback-Leibler(KL)散度,看看這個(gè)度量使問題對(duì)歸一化因子不敏感。如果p和q是兩個(gè)分布,則KL散度定義如下 根據(jù)這個(gè)定義,我們可以很容易地看到我們擁有的 這意味著我們的最小化問題具有以下相等性 因此,當(dāng)選擇KL散度作為我們的誤差測(cè)量時(shí),優(yōu)化過程對(duì)乘法系數(shù)不敏感,我們可以在我們的參數(shù)化分布族中搜索最佳近似,而不必計(jì)算目標(biāo)分布的痛苦歸一化因子,因?yàn)樗穷A(yù)期。
優(yōu)化過程和直覺一旦定義了參數(shù)化族和誤差測(cè)量,我們就可以初始化參數(shù)(隨機(jī)或根據(jù)明確定義的策略)并繼續(xù)進(jìn)行優(yōu)化??梢允褂脦追N經(jīng)典的優(yōu)化技術(shù),例如梯度下降或坐標(biāo)下降,這將在實(shí)踐中導(dǎo)致局部最優(yōu)。 為了更好地理解這個(gè)優(yōu)化過程,讓我們舉一個(gè)例子,回到貝葉斯推理問題的具體情況,我們假設(shè)后驗(yàn)是這樣的, 在這種情況下,如果我們想要使用變分推理得到這個(gè)后驗(yàn)的近似值,我們必須解決以下優(yōu)化過程(假設(shè)參數(shù)化族已定義且KL散度為誤差測(cè)量) 最后的平等有助于我們更好地理解如何鼓勵(lì)近似分布其質(zhì)量。第一項(xiàng)是預(yù)期的對(duì)數(shù)似然,它傾向于調(diào)整參數(shù),以便將近似的質(zhì)量放在潛在變量z的值上,以解釋觀察到的最佳數(shù)據(jù)。第二項(xiàng)是近似值和先驗(yàn)值之間的負(fù)KL偏差,其傾向于調(diào)整參數(shù)以使近似值接近先驗(yàn)分布。因此,該目標(biāo)函數(shù)很好地表達(dá)了通常的先驗(yàn)/似然平衡。 變分推理方法的優(yōu)化過程 總結(jié)· 貝葉斯推理在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中是一個(gè)非常經(jīng)典的問題,它依賴于眾所周知的貝葉斯定理,其主要缺點(diǎn)在于,大多數(shù)時(shí)候,在一些非常繁重的計(jì)算中。 · 馬爾可夫鏈蒙特卡羅(MCMC)方法旨在模擬密度樣本,這些樣本可能非常復(fù)雜和/或定義為一個(gè)因子 · MCMC可用于貝葉斯推理,以便直接從后驗(yàn)的'未歸一化部分'生成樣本,而不是處理難以處理的計(jì)算 · 變分推理(VI)是一種近似分布的方法,該分布使用參數(shù)優(yōu)化過程來找到給定族中的最佳近似 · VI優(yōu)化過程對(duì)目標(biāo)分布中的乘法常數(shù)不敏感,因此,該方法可用于近似后驗(yàn)僅定義到歸一化因子 如前所述,MCMC和VI方法具有不同的屬性,這意味著不同的典型用例。一方面,MCMC方法的采樣過程非常繁重但沒有偏差,因此,當(dāng)預(yù)期得到準(zhǔn)確的結(jié)果時(shí),這些方法是首選,而不考慮所需的時(shí)間。另一方面,盡管VI方法中的族的選擇可以明確地引入偏差,但它伴隨著合理的優(yōu)化過程,使得這些方法特別適合于需要快速計(jì)算的非常大規(guī)模的推理問題。 最后,變分自動(dòng)編碼器,是一種基于變分推理的深度學(xué)習(xí)方法! |
|