貝葉斯網(wǎng)絡（1）

dbn9981 2020-06-23

展開全文

本文內(nèi)容主要總結(jié)自coursera課程Bayesian Methods for Machine Learning

一、什么是貝葉斯概率

有一個問題，我們有一個硬幣，怎么判斷這個硬幣投擲后，顯示正面的概率呢？

頻率學派：我們可以投擲這個硬幣100次，看有多少次是正面，這個結(jié)果應該趨近于硬幣投擲正面的概率。
貝葉斯學派：從生活經(jīng)驗上，硬幣投擲到正面的概率是50%，那么我們對于顯示正面的概率的判斷需要已此為基礎，再根據(jù)投擲正面的結(jié)果進行調(diào)整。

上面的例子用貝葉斯概率論的語言來描述，就是觀察者持有某個前置信念（prior ），通過觀測獲得統(tǒng)計證據(jù)（evidence），通過滿足一定條件的邏輯一致推斷得出的關于該陳述的合理性（likelihood），從而得出后置信念（posterior ）來最好的表征觀測后的知識狀態(tài)（state of knowledge）。
這里，貝葉斯概率推斷所試圖解決的核心問題就是如何構(gòu)建一個滿足一定條件的邏輯體系賦予特定論斷一個實數(shù)所表征的論斷合理性的度量（measure of plausibility），從而可以允許觀測者在不完全信息的狀態(tài)下進行推斷。這里，觀察者對某變量的信念或知識狀態(tài)就是頻率學派所說的「概率分布」，也就是說，觀察者的知識狀態(tài)就是對被觀察變量取各種值所賦予的「合理性」的分布。

這里寫圖片描述

頻率學派和貝葉斯學派最大的差別:
其實產(chǎn)生于對參數(shù)空間的認知上。所謂參數(shù)空間，就是你關心的那個參數(shù)可能的取值范圍。頻率學派（其實就是當年的Fisher）并不關心參數(shù)空間的所有細節(jié)，他們相信數(shù)據(jù)都是在這個空間里的”某個“參數(shù)值下產(chǎn)生的（雖然你不知道那個值是啥），所以他們的方法論一開始就是從“哪個值最有可能是真實值”這個角度出發(fā)的。于是就有了最大似然（maximum likelihood）以及置信區(qū)間（confidence interval）這樣的東西，你從名字就可以看出來他們關心的就是我有多大把握去圈出那個唯一的真實參數(shù)。而貝葉斯學派恰恰相反，他們關心參數(shù)空間里的每一個值，因為他們覺得我們又沒有上帝視角，怎么可能知道哪個值是真的呢？所以參數(shù)空間里的每個值都有可能是真實模型使用的值，區(qū)別只是概率不同而已。于是他們才會引入先驗分布（prior distribution）和后驗分布（posterior distribution）這樣的概念來設法找出參數(shù)空間上的每個值的概率。最好詮釋這種差別的例子就是想象如果你的后驗分布是雙峰的，頻率學派的方法會去選這兩個峰當中較高的那一個對應的值作為他們的最好猜測，而貝葉斯學派則會同時報告這兩個值，并給出對應的概率。