本文內(nèi)容主要總結(jié)自coursera課程Bayesian Methods for Machine Learning
一、什么是貝葉斯概率
有一個問題,我們有一個硬幣,怎么判斷這個硬幣投擲后,顯示正面的概率呢?
上面的例子用貝葉斯概率論的語言來描述,就是觀察者持有某個前置信念(prior ),通過觀測獲得統(tǒng)計證據(jù)(evidence),通過滿足一定條件的邏輯一致推斷得出的關于該陳述的合理性(likelihood),從而得出后置信念(posterior )來最好的表征觀測后的知識狀態(tài)(state of knowledge)。
這里,貝葉斯概率推斷所試圖解決的核心問題就是如何構(gòu)建一個滿足一定條件的邏輯體系賦予特定論斷一個實數(shù)所表征的論斷合理性的度量(measure of plausibility),從而可以允許觀測者在不完全信息的狀態(tài)下進行推斷。這里,觀察者對某變量的信念或知識狀態(tài)就是頻率學派所說的「概率分布」,也就是說,觀察者的知識狀態(tài)就是對被觀察變量取各種值所賦予的「合理性」的分布。
頻率學派和貝葉斯學派最大的差別:
其實產(chǎn)生于對參數(shù)空間的認知上。所謂參數(shù)空間,就是你關心的那個參數(shù)可能的取值范圍。頻率學派(其實就是當年的Fisher)并不關心參數(shù)空間的所有細節(jié),他們相信數(shù)據(jù)都是在這個空間里的”某個“參數(shù)值下產(chǎn)生的(雖然你不知道那個值是啥),所以他們的方法論一開始就是從“哪個值最有可能是真實值”這個角度出發(fā)的。于是就有了最大似然(maximum likelihood)以及置信區(qū)間(confidence interval)這樣的東西,你從名字就可以看出來他們關心的就是我有多大把握去圈出那個唯一的真實參數(shù)。而貝葉斯學派恰恰相反,他們關心參數(shù)空間里的每一個值,因為他們覺得我們又沒有上帝視角,怎么可能知道哪個值是真的呢?所以參數(shù)空間里的每個值都有可能是真實模型使用的值,區(qū)別只是概率不同而已。于是他們才會引入先驗分布(prior distribution)和后驗分布(posterior distribution)這樣的概念來設法找出參數(shù)空間上的每個值的概率。最好詮釋這種差別的例子就是想象如果你的后驗分布是雙峰的,頻率學派的方法會去選這兩個峰當中較高的那一個對應的值作為他們的最好猜測,而貝葉斯學派則會同時報告這兩個值,并給出對應的概率。
二、基礎模型
1、離線分類判斷模型
2、在線訓練模型
將現(xiàn)模型作為先驗分布,基于新數(shù)據(jù),得到最新的分布
三、共軛分布
根據(jù)上面的內(nèi)容,我們可以看到,因為數(shù)據(jù)p(x)是已知的,計算后驗分布,需要得到先驗分布和似然分布。其中,似然分布由我們選擇擬合的分布模型決定。所以,問題在于如何得到先驗分布。這里,我們引入了共軛分布的概念
共軛分布(conjugate distribution):
概率中一共涉及到三個分布:先驗、似然和后驗,如果由先驗分布和似然分布所確定的后驗分布與該先驗分布屬于同一種類型的分布,則該先驗分布為似然分布的共軛分布,也稱為共軛先驗。
通過引入共軛分布,所有的分布就出來了,為后續(xù)的參數(shù)推倒做了鋪墊
>>下面介紹一些典型的分布
1、高斯分布和其似然計算
(1)分布說明
例:每天運動的距離
(2)計算說明
Beta分布和其似然計算
(1)分布說明
電影評分等
(2)計算說明
四、虛擬變量
以上情況是僅僅考慮單變量的情況。現(xiàn)實情況中,多變量判斷場景下,變量之間都是相互聯(lián)系的,比如通過年齡和體重判斷身高,年齡和體重之間也有著相互的聯(lián)系。在這種情況下,計算概率就變得很復雜。
這時候,就引入了虛擬變量,通過虛擬變量整合所有參數(shù),會使得概率模型變的簡單
五、Gaussian Mixture Model GMM高斯混合模型
虛擬變量不一定是一個,根據(jù)需要可以添加多個虛擬變量分布用于擬合數(shù)據(jù),這就是高斯混合模型
模型的訓練方式也發(fā)生的改變,計算的結(jié)果變?yōu)檎业阶畲蟾怕实奶摂M變量分布乘積
|