概率論中兩大學(xué)派: 頻率學(xué)派和貝葉斯學(xué)派。先驗(yàn)概率,后驗(yàn)概率,共軛分布和共軛先驗(yàn)是貝葉斯學(xué)派中的幾個(gè)概念。原因是貝葉斯學(xué)派認(rèn)為分布存在先驗(yàn)分布和后驗(yàn)分布的不同,而頻率學(xué)派則認(rèn)為一個(gè)事件的概率只有一個(gè)。
基本概率分布:
先驗(yàn)分布(prior probability),后驗(yàn)分布(posterior probability),似然函數(shù)(likelyhood function),共軛分布(conjugacy) 共軛分布(conjugacy):后驗(yàn)概率分布函數(shù)與先驗(yàn)概率分布函數(shù)具有相同形式
那么對(duì)于拋硬幣這個(gè)事件來(lái)說(shuō),拋出正面硬幣的概率就應(yīng)該是一個(gè)概率的概率,也就是說(shuō)它的結(jié)果不是一個(gè)單一的值 1/2,而是一個(gè)概率分布,可能有很高的概率是1/2,但是也有一定的概率是100%(比如拋100次結(jié)果還真都100次都是正面)。那么在這里這個(gè)概率的分布用函數(shù)來(lái)表示就是一個(gè)似然函數(shù),所以似然函數(shù)也被稱為“分布的分布”。用公式來(lái)表示就是:后驗(yàn)概率∝ 似然函數(shù)*先驗(yàn)概率
采用共軛先驗(yàn)的原因:
可以使得先驗(yàn)分布和后驗(yàn)分布的形式相同,這樣一方面合符人的直觀(它們應(yīng)該是相同形式的)另外一方面是可以形成一個(gè)先驗(yàn)鏈,即現(xiàn)在的后驗(yàn)分布可以作為下一次計(jì)算的先驗(yàn)分布,如果形式相同,就可以形成一個(gè)鏈條。
為了使得先驗(yàn)分布和后驗(yàn)分布的形式相同,我們定義: 如果先驗(yàn)分布和似然函數(shù)可以使得先驗(yàn)分布和后驗(yàn)分布(posterior distributions)有相同的形式,那么就稱先驗(yàn)分布與似然函數(shù)是共軛的。所以,共軛是指的先驗(yàn)分布(prior probability distribution)和似然函數(shù)(likelihood function)。如果某個(gè)隨機(jī)變量Θ的后驗(yàn)概率 p(θ|x)和氣先驗(yàn)概率p(θ)屬于同一個(gè)分布簇的,那么稱p(θ|x)和p(θ)為共軛分布,同時(shí),也稱p(θ)為似然函數(shù)p(x|θ)的共軛先驗(yàn)。
參數(shù)估計(jì): 離散型隨機(jī)變量分布:二項(xiàng)式分布,多項(xiàng)式分布; 連續(xù)型隨機(jī)變量分布:正態(tài)分布。 他們都可以看作是參數(shù)分布,因?yàn)樗麄兊暮瘮?shù)形式都被一小部分的參數(shù)控制,比如正態(tài)分布的均值和方差,二項(xiàng)式分布事件發(fā)生的概率等。因此,給定一堆觀測(cè)數(shù)據(jù)集(假定數(shù)據(jù)滿足獨(dú)立同分布),我們需要有一個(gè)解決方案來(lái)確定這些參數(shù)值的大小,以便能夠利用分布模型來(lái)做密度估計(jì)。這就是參數(shù)估計(jì)。
從兩個(gè)學(xué)派角度考慮參數(shù)估計(jì):
頻率學(xué)派:通過(guò)某些優(yōu)化準(zhǔn)則(比如似然函數(shù))來(lái)選擇特定參數(shù)值; 貝葉斯學(xué)派:假定參數(shù)服從一個(gè)先驗(yàn)分布,通過(guò)觀測(cè)到的數(shù)據(jù),使用貝葉斯理論計(jì)算對(duì)應(yīng)的后驗(yàn)分布。 先驗(yàn)和后驗(yàn)的選擇滿足共軛,這些分布都是指數(shù)簇分布的例子。
它們之間的關(guān)系可以通過(guò)貝葉斯公式進(jìn)行連接: 后驗(yàn)分布 = 似然函數(shù)* 先驗(yàn)分布/ P(X)
Gamma函數(shù)
gamma函數(shù)其實(shí)就是階乘的函數(shù),比如n!=1*2*3*….n,這個(gè)階乘形式可以更一般化,不局限于整數(shù)。而更一般的函數(shù)形式就是gamma函數(shù):
二項(xiàng)分布與beta分布 二項(xiàng)分布(Binomial distribution)其中p為成功的概率,記作X~B(n,p) beta分布(beta distribution),一組定義在區(qū)間(0,1)的連續(xù)概率分布,有兩個(gè)參數(shù)α和β,且α,β>0.它是一個(gè)作為伯努利分布與二項(xiàng)分布的共軛先驗(yàn)分布的密度函數(shù)。Beta分布的概率密度函數(shù):
記作X~ Beta(α,β),其中分母函數(shù)為B函數(shù),B函數(shù)是一個(gè)標(biāo)準(zhǔn)化函數(shù),它只是為了使得這個(gè)分布的概率密度積分等于1。 B函數(shù)與Gamma函數(shù)的關(guān)系: B函數(shù)與Gamma函數(shù)的關(guān)系 Beta分布的期望可以用公式來(lái)估計(jì):
Beta分布的期望可以用公式來(lái)估計(jì)
二項(xiàng)分布代入似然函數(shù): beta分布代入先驗(yàn)分布: 最后我們發(fā)現(xiàn)這個(gè)貝葉斯估計(jì)服從Beta(a’,b’)分布的,我們只要用B函數(shù)將它標(biāo)準(zhǔn)化就得到我們的后驗(yàn)概率:
多項(xiàng)式分布與Dirichlet 分布 狄利克雷分布(Dirichlet distribution)是多項(xiàng)分布的共軛分布,也就是它與多項(xiàng)分布具有相同形式的分布函數(shù)。
多項(xiàng)分布是二項(xiàng)分布的推廣,在n次獨(dú)立試驗(yàn)中每次只輸出k種結(jié)果中的一個(gè),且每種結(jié)果都有一個(gè)確定的概率p。 三項(xiàng)多項(xiàng)式表達(dá): 三維Dirichlet分布: 多項(xiàng)式表達(dá)式: 多維的Dirichlet分布:
多項(xiàng)式分布代入似然函數(shù) Dirichlet分布代入先驗(yàn)分布 后驗(yàn)概率:
LDA 主題模型的概率表示: p(詞語(yǔ)|文檔)可通過(guò)觀察數(shù)據(jù)集求得。那么右邊的兩個(gè)概率分布如何求得的?將這兩個(gè)分布看著是上帝的游戲:上帝為了創(chuàng)造一篇文檔,先用一個(gè)有M個(gè)面的骰子做實(shí)驗(yàn),M個(gè)面代表M個(gè)主題,每做一次投骰子實(shí)驗(yàn),就可以得到M個(gè)主題中的一個(gè),進(jìn)行多次投擲,就可以得到一篇文檔的多個(gè)主題,可以看到這個(gè)實(shí)驗(yàn)描述的分布就是多項(xiàng)式分布。同樣的某個(gè)主題下有多個(gè)詞語(yǔ),某個(gè)主題骰子有N個(gè)面,每個(gè)面表示一個(gè)詞語(yǔ)(即詞袋),每做一次投骰子實(shí)驗(yàn),就可得到N個(gè)詞中的一個(gè),進(jìn)行多次投擲,就可以得到一個(gè)主題下多個(gè)詞語(yǔ),同樣可以看出這個(gè)實(shí)驗(yàn)也服從多項(xiàng)式分布。我們可以將他們的先驗(yàn)都取Dirichlet分布。
|