先談概率,概率大家都很熟悉。對(duì)于概率的解讀區(qū)別了頻率流派和貝葉斯流派。如果不理解主觀概率,也就無(wú)法理解貝葉斯定律的核心思想。 貝葉斯分析是整個(gè)機(jī)器學(xué)習(xí)的基礎(chǔ)框架。首先從貝葉斯統(tǒng)計(jì)說(shuō)起。 先談概率。概率大家都很熟悉。然而說(shuō)到定義卻不一定說(shuō)對(duì),中學(xué)課本會(huì)說(shuō),概率是一件事發(fā)生的頻率。 而貝葉斯框架下的概率理論卻給了另一個(gè)角度:概率是我們的主觀概念, 表明我們對(duì)某個(gè)事物發(fā)生的相信程度。 如Pierre Lapalace所說(shuō): Probability theory is nothing but common sense reduced to calculation. 這正是貝葉斯派的核心。它解決的是來(lái)自外部的信息與我們大腦內(nèi)信念的交互關(guān)系。 兩種對(duì)于概率的解讀區(qū)別了頻率流派和貝葉斯流派。如果不理解主觀概率,也就無(wú)法理解貝葉斯定律的核心思想。 貝葉斯學(xué)派與頻率學(xué)派有何不同?簡(jiǎn)單地說(shuō),頻率學(xué)派與貝葉斯學(xué)派探討「不確定性」這件事時(shí)的出發(fā)點(diǎn)與立足點(diǎn)不同。頻率學(xué)派從「自然」角度出發(fā),試圖直接為「事件」本身建模,即事件A在獨(dú)立重復(fù)試驗(yàn)中發(fā)生的頻率趨于極限p,那么這個(gè)極限就是該事件的概率。舉例而言,想要計(jì)算拋擲一枚硬幣時(shí)正面朝上的概率,我們需要不斷地拋擲硬幣,當(dāng)拋擲次數(shù)趨向無(wú)窮時(shí)正面朝上的頻率即為正面朝上的概率。 然而,貝葉斯學(xué)派并不從試圖刻畫「事件」本身,而從「觀察者」角度出發(fā)。貝葉斯學(xué)派并不試圖說(shuō)「事件本身是隨機(jī)的」,或者「世界的本體帶有某種隨機(jī)性」,這套理論根本不言說(shuō)關(guān)于「世界本體」的東西,而只是從「觀察者知識(shí)不完備」這一出發(fā)點(diǎn)開(kāi)始,構(gòu)造一套在貝葉斯概率論的框架下可以對(duì)不確定知識(shí)做出推斷的方法。頻率學(xué)派下說(shuō)的「隨機(jī)事件」在貝葉斯學(xué)派看來(lái),并不是「事件本身具有某種客觀的隨機(jī)性」,而是「觀察者不知道事件的結(jié)果」而已,只是「觀察者」知識(shí)狀態(tài)中尚未包含這一事件的結(jié)果。但是在這種情況下,觀察者又試圖通過(guò)已經(jīng)觀察到的「證據(jù)」來(lái)推斷這一事件的結(jié)果,因此只能靠猜。貝葉斯概率論就想構(gòu)建一套比較完備的框架用來(lái)描述最能服務(wù)于理性推斷這一目的的「猜的過(guò)程」。因此,在貝葉斯框架下,同一件事情對(duì)于知情者而言就是「確定事件」,對(duì)于不知情者而言就是「隨機(jī)事件」,隨機(jī)性并不源于事件本身是否發(fā)生,而只是描述觀察者對(duì)該事件的知識(shí)狀態(tài)。 總的來(lái)說(shuō),貝葉斯概率論為人的知識(shí)(knowledge)建模來(lái)定義「概率」這個(gè)概念。頻率學(xué)派試圖描述的是「事物本體」,而貝葉斯學(xué)派試圖描述的是觀察者知識(shí)狀態(tài)在新的觀測(cè)發(fā)生后如何更新。為了描述這種更新過(guò)程,貝葉斯概率論假設(shè)觀察者對(duì)某事件處于某個(gè)知識(shí)狀態(tài)中(例如:小明先驗(yàn)地相信一枚硬幣是均勻的,可能是出于認(rèn)為均勻硬幣最常見(jiàn)這種信念),之后觀察者開(kāi)始新的觀測(cè)或?qū)嶒?yàn)(小明開(kāi)始不斷地拋硬幣,發(fā)現(xiàn)拋了100次后,居然只有20次是正面朝上)。經(jīng)過(guò)中間的獨(dú)立重復(fù)試驗(yàn),觀察者獲得了一些新的觀測(cè)結(jié)果,這些新的觀測(cè)將以含有不確定性的邏輯推斷的方式影響觀察者原有的信念(小明開(kāi)始懷疑這枚硬幣究竟是不是均勻的,甚至開(kāi)始斷定硬幣并不均勻)。在這一過(guò)程中,觀察者無(wú)法用簡(jiǎn)單的邏輯來(lái)推斷,因?yàn)橛^察者并沒(méi)有完全的信息作為證據(jù),因此只能采用似真推斷(plausible reasoning),對(duì)于各種各樣可能的結(jié)果賦予一個(gè)「合理性」(plausibility)。例子中,小明原先認(rèn)為硬幣的分布是均勻的,于是根據(jù)小明原有的信念,這個(gè)論斷合理性非常高;在觀察到100次拋擲中只有20次正面朝上后,小明開(kāi)始懷疑硬幣的均勻性,此時(shí)小明很可能認(rèn)為「硬幣不均勻」這一推斷的合理性很高,支持的證據(jù)就是他剛剛實(shí)驗(yàn)的觀測(cè)結(jié)果。 上面的例子用貝葉斯概率論的語(yǔ)言來(lái)描述,就是觀察者持有某個(gè)前置信念(prior 從這個(gè)意義上來(lái)講,貝葉斯概率論試圖構(gòu)建的是知識(shí)狀態(tài)的表征,而不是客觀世界的表征。因此,在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)推斷中,許多情況下貝葉斯概率推斷更能解決觀察者推斷的問(wèn)題,而繞開(kāi)了關(guān)于事件本體的討論,因?yàn)闆](méi)有討論本體的必要性。 貝葉斯分析居然能解決家庭糾紛? 來(lái)看一個(gè)有趣的案例:假如你是女生, 在你的老公包里發(fā)現(xiàn)了別的女人內(nèi)褲,那他出軌的概率是多少。
在這里1其實(shí)就是先驗(yàn)概率P(A),而2是條件概率P(B|A), 最終得到3后驗(yàn)概率P(A|B)。這三種即是貝葉斯統(tǒng)計(jì)的三要素。基于條件概率的貝葉斯定律數(shù)學(xué)方程極為簡(jiǎn)單: A即出軌, B是內(nèi)褲出現(xiàn), 你得到1,2,就可以根據(jù)公式算出,根據(jù)內(nèi)褲出現(xiàn)判斷出軌的概率。 先驗(yàn)概率在貝葉斯統(tǒng)計(jì)中有重要意義,首先先驗(yàn)概率即我們?cè)谌〉米C據(jù)之前所指定的概率P(A), 這個(gè)值通常是根據(jù)我們之前的常識(shí),帶有一定主觀色彩。 就像剛剛說(shuō)的出軌的問(wèn)題, 你的先驗(yàn)概率代表了你對(duì)丈夫的信心。 有一個(gè)非常有趣的現(xiàn)象是,如果我們的先驗(yàn)概率審定為1或0(即肯定或否定某事發(fā)生), 那,無(wú)論如何增加證據(jù),也依然得到同樣的條件概率(此時(shí)P(A)=0 或 1 , P(A|B)= 0或1) 。這告訴我們一個(gè)經(jīng)驗(yàn):不要過(guò)早下論斷, 否則預(yù)測(cè)也就無(wú)法進(jìn)化了。 如果想讓認(rèn)知進(jìn)步,就要給各種假設(shè)留空間。 貝葉斯分析看辛普森案 貝葉斯分析的思路,對(duì)于由證據(jù)的積累來(lái)推測(cè)一個(gè)事物發(fā)生的概率具有重大作用。當(dāng)我們要預(yù)測(cè)一個(gè)事物, 首先根據(jù)已有的經(jīng)驗(yàn)和知識(shí)推斷一個(gè)先驗(yàn)概率, 然后在新證據(jù)不斷積累的情況下調(diào)整這個(gè)概率。整個(gè)通過(guò)積累證據(jù)來(lái)得到一個(gè)事件發(fā)生概率的過(guò)程,我們稱為貝葉斯分析。 貝葉斯分析中的三要素在不同的問(wèn)題中通常有側(cè)重點(diǎn) 。 很多時(shí)候,都是忽略先驗(yàn)概率的作用,比如描述一個(gè)人很書呆子氣讓你判斷他是大學(xué)老師還是銷售員的經(jīng)典案例(要看先驗(yàn)大學(xué)老師還是銷售員哪個(gè)多?。?nbsp; 但有時(shí),我們也不理解條件概率, 比如著名的辛普森案。為證明辛普森有殺妻之罪,檢方說(shuō)辛普森之前家暴。辯護(hù)律師說(shuō),美國(guó)有400萬(wàn)女性被丈夫或男友打過(guò),其中只有1432人被殺,概率是2800分之一。 這其實(shí)是誤用了后驗(yàn)概率。這里的條件是“被殺”且“有家暴”,而要推測(cè)的事件是“兇手是男友”(事實(shí)上概率高達(dá)90%),這才是貝葉斯分析的正當(dāng)用法, 而辯護(hù)律師卻完全混淆了條件與需要驗(yàn)證的假設(shè)。 理解貝葉斯分析最好的方法即圖像法。這里的A的面積即先驗(yàn),后驗(yàn)是陰影占籃圈的百分比。 貝葉斯分析可以瞬間理解一些常用的理論, 如幸存者偏差。你發(fā)現(xiàn)一些沒(méi)讀過(guò)書的人很有錢,事實(shí)上是你發(fā)現(xiàn)就已經(jīng)是幸存者了(對(duì)應(yīng)上圖中小紅圈), 而死了的人(紅圈外的大部分面積)你都沒(méi)見(jiàn)到啊。 還有陰謀論——陰謀論的特點(diǎn)是條件很多很復(fù)雜, 但是條件一旦成立,結(jié)論幾乎成立,你一旦考慮了先驗(yàn),這些條件成立本身即很困難, 陰謀論不攻自克。 圖上紅圈和籃圈的面積, 很少我們?cè)陂_(kāi)始就知道,這才是應(yīng)用中的難點(diǎn)。 此處,貝葉斯分析的框架也在教我們?nèi)绾翁幚硖乩c一般常識(shí)的規(guī)律。 如果你太注重特例(即不看先驗(yàn)概率) ,很有可能會(huì)誤把噪聲看做信號(hào)。 如恪守先驗(yàn)概率, 就成為無(wú)視變化而墨守成規(guī)的人。其實(shí)只有貝葉斯派的人生存率會(huì)更高, 因?yàn)樗麄儠?huì)重視特例, 但也不忘記書本的經(jīng)驗(yàn),根據(jù)貝葉斯公式小心調(diào)整信心,甚至?xí)鲃?dòng)設(shè)計(jì)實(shí)驗(yàn)根據(jù)信號(hào)判斷假設(shè),這就是我們下一步要講的。 貝葉斯決策判定男女 在剛剛講到的貝葉斯統(tǒng)計(jì)分析的基礎(chǔ)上, 我們就可以引出一個(gè)更核心的概念, 貝葉斯決策。 貝葉斯決策主要包含四個(gè)部分: 數(shù)據(jù)(D), 假設(shè)(W),目標(biāo)(O),決策(S)。 此處數(shù)據(jù)即之前講到的證據(jù)。假設(shè)是我們要驗(yàn)證的事實(shí),目標(biāo)是我們最終要取得優(yōu)化的量,決策時(shí)根據(jù)目標(biāo)得到的最后行為。與上一步貝葉斯分析增加的部分是目標(biāo)和決策。假設(shè)在問(wèn)題里如果是連續(xù)的往往以參數(shù)空間的形式表達(dá)。 然后我們可以按照如下步驟做:
貝葉斯決策如果一旦變成自動(dòng)化的計(jì)算機(jī)算法, 它就是機(jī)器學(xué)習(xí)。我們就用貝葉斯決策詮釋一個(gè)最簡(jiǎn)單的機(jī)器學(xué)習(xí)分類算法—— 樸素貝葉斯 首先, 此處的證據(jù)是身高和體重,假設(shè)是男或女。先驗(yàn)概率是人口中的男女比例, 而我們需要掌握的條件概率是男性和女性的身高和體重分布,這應(yīng)該是很好掌握的信息。 然后我們可以根據(jù)貝葉斯公式求解后驗(yàn)概率,而此處我們要做的決策時(shí)男女,目標(biāo)是分類錯(cuò)誤率最低,決策即性別分類。 (圖: 樸素貝葉斯,核心在于假設(shè)證據(jù)互相獨(dú)立) 由此我們得到下列乘法公式(feature對(duì)應(yīng)x) 用數(shù)學(xué)語(yǔ)言白表征這個(gè)問(wèn)題, X特征向量,h把X映射成不同的分類, 我們要求得是P(y|x) 正確率最大的假設(shè)(y)。 擲硬幣的概率不是50% 事實(shí)上,貝葉斯決策很少只涉及A和B, 而是內(nèi)部包含關(guān)鍵的隱變量(參數(shù)),涉及對(duì)所研究事物的一些基本預(yù)設(shè)。比如下面這個(gè)簡(jiǎn)單例子: 拋硬幣,一個(gè)硬幣被投擲10次,9次朝上,那么根據(jù)頻率學(xué)派的觀點(diǎn), 得到第11次投擲的概率不變?yōu)?.5 ,如果你回答了0.9, 你經(jīng)常會(huì)被看成一個(gè)傻X。 其實(shí)不然,天底下哪有一樣的硬幣呢? 那么問(wèn)題來(lái)了,設(shè)一個(gè)賭局, 一次正面向上你可以受益100, 反面懲罰150。基于剛才的事實(shí),要不要賭? 可以套用貝葉斯決策的理論來(lái)分析。 這里的一個(gè)重要的隱變量是每一次投擲硬幣的概率,這個(gè)數(shù)字按照經(jīng)典頻率學(xué)派認(rèn)定一定是0.5, 而按照貝葉斯學(xué)派的觀點(diǎn), 需要把這個(gè)變量看成是未知的,具有一定先驗(yàn)概率,之后嚴(yán)格按照貝葉斯公式計(jì)算新加入證據(jù)對(duì)先驗(yàn)概率的影響。 此處的先驗(yàn)概率即你對(duì)硬幣向上0.5這件事的信念, 你越相信這個(gè)事實(shí), 這個(gè)分布越尖,反之越寬廣。 我們用希臘字母θ來(lái)表征這個(gè)概率。整個(gè)決策表述如下: 公式的含義是你要用求解已知9次朝上1次朝下的時(shí)候求解你下一次投擲硬幣的期望收益, 并因此決策要不要賭。 中間要驗(yàn)證的假設(shè)空間,即每一次投擲為正的概率,我們依然以每次事件獨(dú)立和該概率不隨時(shí)間變化為基準(zhǔn)(如果不是問(wèn)題將無(wú)限復(fù)雜),那么證據(jù)將根據(jù)上述公式改變假設(shè)空間的概率分布, 而最終的期望可以根據(jù)這個(gè)分布求出。決策即使得這個(gè)期望最大的解。 注意,此處先驗(yàn)十分重要,因?yàn)樗绊憶Q策結(jié)果。而這又是一個(gè)很主觀的東西,如對(duì)0.5有絕對(duì)信心,那么你的就會(huì)非常尖,這時(shí)你需要得到大量偏離0.5的證據(jù)才能逐步糾偏。 對(duì)書呆子,估計(jì)會(huì)傾向給出一個(gè)比較尖銳的先驗(yàn)分布,相信書里說(shuō)的0.5而不賭, 而一些更加傾向于相信特例的人則會(huì)給出很平坦的先驗(yàn)而更大的概率去賭。最終后者發(fā)財(cái)和傾家蕩產(chǎn)的幾率都比較高,而前者比較容易旱澇保收。 當(dāng)然, 在數(shù)據(jù)量超大,比如說(shuō)1000次有900次為正的情況下,我們幾乎不需要考慮先驗(yàn),此時(shí)幾乎可以認(rèn)定投擲的概率就是0.9。 (圖:證據(jù)對(duì)信念發(fā)生作用的貝葉斯過(guò)程) 大腦是一個(gè)貝葉斯網(wǎng)絡(luò)? 如果貝葉斯決策中牽涉的證據(jù)更復(fù)雜呢? 如證據(jù)間不獨(dú)立而是互為因果呢?這時(shí)候需要更強(qiáng)大的工具——貝葉斯網(wǎng)絡(luò)。 世事無(wú)一不處于復(fù)雜的聯(lián)系之中, 而貝葉斯網(wǎng)絡(luò)正是刻畫這種關(guān)聯(lián)的數(shù)學(xué)表述。 構(gòu)建一個(gè)貝葉斯網(wǎng)絡(luò)的關(guān)鍵方法是圖模型,構(gòu)建一個(gè)圖模型我們需要把具有因果聯(lián)系的各個(gè)事件用箭頭連在一起。 下圖例子是個(gè)事件:草坪濕潤(rùn)了,那么推測(cè)此時(shí)天氣多云的概率,因?yàn)閷?dǎo)致草坪濕潤(rùn)的原因有下雨、或?yàn)⑺囋诠ぷ鳎?而這兩者又都和多云聯(lián)系,那么可以畫出如下圖形,按貝葉斯概率公式逐級(jí)推出每個(gè)事件的概率。 貝葉斯網(wǎng)絡(luò)的特性是,當(dāng)某點(diǎn)一個(gè)證據(jù)出現(xiàn), 整個(gè)網(wǎng)絡(luò)中事件概率都變化。所謂看到鏡中白發(fā), 就改變你對(duì)人生中所有重大事件概率的推斷。 說(shuō)大腦是一個(gè)貝葉斯網(wǎng)絡(luò), 這句話又對(duì)又不對(duì)。大腦學(xué)習(xí)的原理,是一個(gè)新的證據(jù)逐步和內(nèi)部信念耦合的過(guò)程,本質(zhì)即貝葉斯網(wǎng)絡(luò)。但大腦又是不完全的貝葉斯推斷機(jī), 每人都有一個(gè)頂層以三觀構(gòu)建,底層逐步深入關(guān)于具體問(wèn)題看法的貝葉斯網(wǎng)路;但是我們卻很少有能夠通過(guò)一個(gè)證據(jù)更新整個(gè)網(wǎng)絡(luò)的能力,或者是我們吸收新證據(jù)的速度也往往十分緩慢。這是為什么我們經(jīng)常具有自相矛盾的信念體系。 |
|