https://www./article/1565555985219617 在統(tǒng)計學(xué)里,長期以來,有頻率學(xué)派和貝葉斯學(xué)派兩大學(xué)派,他們互相鄙視對方,就像華山派的氣宗與劍宗之爭。 這兩大學(xué)派最根本的觀點在于看待世界的方式不同:
這兩大學(xué)派哪個才是正確的?其實都對,只是看待世界的角度不同。但是在現(xiàn)實世界中,除了拋硬幣、擲骰子、玩老虎機(jī)等少數(shù)符合理想數(shù)學(xué)模型的場景,頻率學(xué)派才能發(fā)揮作用。大多數(shù)需要我們估算概率的現(xiàn)實場景,只能用貝葉斯理論來指導(dǎo)實踐。 舉個例子,假設(shè)我住在市區(qū),希望趕上飛機(jī)的概率不低于90%,那么我應(yīng)該提前多久出發(fā)呢?我必須試驗至少100次,看看樣本空間,才能獲得一個比較準(zhǔn)確的統(tǒng)計均值。然而這是不現(xiàn)實的,因為我一年可能就坐幾次飛機(jī)。我只能拍腦袋先估一個提前30分鐘就夠了,結(jié)果第三次就沒趕上,這說明我必須修正我的先驗概率,后續(xù)改為提前45分鐘,才能提升趕上飛機(jī)的概率。 我們再以《狼來了》的故事為例,當(dāng)小孩第一次喊狼來了,村民聽到后可以根據(jù)先驗概率,比如P(小孩是誠實的)=90%判斷趕緊去幫忙,結(jié)果發(fā)現(xiàn)被騙了,于是大家根據(jù)“被騙了”這一證據(jù)把后驗概率P(小孩是誠實的)調(diào)整為60%,第二次又被騙了,于是再次把后驗概率調(diào)整為20%,等到第三次聽見小孩求救時,大家根據(jù)P(小孩是誠實的)=20%判斷,他大概率還是在說謊,于是沒有人去幫忙了。 有的同學(xué)會問,你說的這些,都是定性分析,沒有定量計算??! 要把貝葉斯定理用到定量計算,必須得借助計算機(jī)。 以吳軍老師在中文分詞領(lǐng)域舉的一個例子來說,對于一個句子:南京市長江大橋,可以有兩種劃分:
到底哪一種更合理?我們可以計算條件概率:
提前準(zhǔn)備好大量的中文語料,計算出任意兩個詞的條件概率,我們就可以得出哪種分詞更合理。 在互聯(lián)網(wǎng)領(lǐng)域,凡是遇到“當(dāng)出現(xiàn)xyz時應(yīng)該推薦什么”這樣的條件概率時,也總是能應(yīng)用貝葉斯理論。 例如,我們在搜索引擎中輸入 怎么實現(xiàn)這個功能?把用戶最近搜索的所有可能的單詞列出來,然后計算條件概率:
把它們排個序,選出條件概率最大的幾個,就是搜索建議。 諸如反垃圾郵件、電商推薦系統(tǒng)等,都是貝葉斯理論在機(jī)器學(xué)習(xí)中的應(yīng)用。由于需要大量的計算,貝葉斯理論也只有在計算機(jī)時代才能廣泛應(yīng)用。 關(guān)于信念我們再回顧一下貝葉斯定理: P(H\vert E)=\frac{P(E\vert H)\times P(H)}{P(E)}P(H∣E)=P(E)P(E∣H)×P(H) 稍微改一下,變?yōu)椋?/p> P(H\vert E)=P(H)\times\frac{P(E\vert H)}{P(E)}P(H∣E)=P(H)×P(E)P(E∣H) P(H)是先驗概率,P(H|E)是后驗概率,P(E|H)/P(E)被稱為調(diào)整因子,先驗概率乘以調(diào)整因子就得到后驗概率。 我們發(fā)現(xiàn),如果P(H)=0,則P(H|E)=0;如果P(H)=1,則P(E|H)=P(E),P(H|E)=1。 也就是說,如果先驗概率為0%或100%,那么,無論出現(xiàn)任何證據(jù)E,都無法改變后驗概率P(H|E)。這對我們看待世界的認(rèn)知有重大指導(dǎo)意義,因為貝葉斯概率的本質(zhì)是信念,通過一次次事件,我們可能加強某種信念,也可能減弱某種信念,但如果信念保持100%或0%,則可以做到對外界輸入完全“免疫”。 舉個例子,十年前許多人都認(rèn)為比特幣是龐氏騙局,如果100%堅定地持有這種信念,那么他將無視用戶越來越多、價格上漲、交易量擴(kuò)大、機(jī)構(gòu)入市等諸多證據(jù),至今仍然會堅信比特幣是騙局而錯過無數(shù)次機(jī)會。(注:此處示例不構(gòu)成任何投資建議) 對于新生事物,每個人都可以有非常主觀的先驗概率,但只要我們不把先驗概率定死為0或100%,就有機(jī)會改變自己的信念,從而更有可能接近客觀事實,這也是貝葉斯定理的精髓:
|
|