小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一文搞懂貝葉斯定理(應(yīng)用篇)

 ZhouAndrew 2023-09-02 發(fā)布于江蘇

https://www./article/1565555985219617

在統(tǒng)計學(xué)里,長期以來,有頻率學(xué)派和貝葉斯學(xué)派兩大學(xué)派,他們互相鄙視對方,就像華山派的氣宗與劍宗之爭。

這兩大學(xué)派最根本的觀點在于看待世界的方式不同:

  • 頻率學(xué)派認(rèn)為世界是客觀的,必須通過大量獨立采樣來獲得統(tǒng)計均值,不能先給出一個主觀的先驗概率(假設(shè));

  • 貝葉斯學(xué)派則認(rèn)為概率是一種信念度,可以有非常主觀的先驗概率,然后,通過一次次采樣結(jié)果修正先驗概率,使之逼近客觀事實。

這兩大學(xué)派哪個才是正確的?其實都對,只是看待世界的角度不同。但是在現(xiàn)實世界中,除了拋硬幣、擲骰子、玩老虎機(jī)等少數(shù)符合理想數(shù)學(xué)模型的場景,頻率學(xué)派才能發(fā)揮作用。大多數(shù)需要我們估算概率的現(xiàn)實場景,只能用貝葉斯理論來指導(dǎo)實踐。

舉個例子,假設(shè)我住在市區(qū),希望趕上飛機(jī)的概率不低于90%,那么我應(yīng)該提前多久出發(fā)呢?我必須試驗至少100次,看看樣本空間,才能獲得一個比較準(zhǔn)確的統(tǒng)計均值。然而這是不現(xiàn)實的,因為我一年可能就坐幾次飛機(jī)。我只能拍腦袋先估一個提前30分鐘就夠了,結(jié)果第三次就沒趕上,這說明我必須修正我的先驗概率,后續(xù)改為提前45分鐘,才能提升趕上飛機(jī)的概率。

我們再以《狼來了》的故事為例,當(dāng)小孩第一次喊狼來了,村民聽到后可以根據(jù)先驗概率,比如P(小孩是誠實的)=90%判斷趕緊去幫忙,結(jié)果發(fā)現(xiàn)被騙了,于是大家根據(jù)“被騙了”這一證據(jù)把后驗概率P(小孩是誠實的)調(diào)整為60%,第二次又被騙了,于是再次把后驗概率調(diào)整為20%,等到第三次聽見小孩求救時,大家根據(jù)P(小孩是誠實的)=20%判斷,他大概率還是在說謊,于是沒有人去幫忙了。

有的同學(xué)會問,你說的這些,都是定性分析,沒有定量計算??!

要把貝葉斯定理用到定量計算,必須得借助計算機(jī)。

以吳軍老師在中文分詞領(lǐng)域舉的一個例子來說,對于一個句子:南京市長江大橋,可以有兩種劃分:

  • 南京市 / 長江大橋

  • 南京市長 / 江大橋

到底哪一種更合理?我們可以計算條件概率:

  • P(長江大橋|南京市) = 出現(xiàn)“南京市”時,出現(xiàn)“長江大橋”的概率;

  • P(江大橋|南京市長) = 出現(xiàn)“南京市長”時,出現(xiàn)“江大橋”的概率。

提前準(zhǔn)備好大量的中文語料,計算出任意兩個詞的條件概率,我們就可以得出哪種分詞更合理。

在互聯(lián)網(wǎng)領(lǐng)域,凡是遇到“當(dāng)出現(xiàn)xyz時應(yīng)該推薦什么”這樣的條件概率時,也總是能應(yīng)用貝葉斯理論。

例如,我們在搜索引擎中輸入elon這個單詞后,搜索框自動給出了聯(lián)想補全:

elon

怎么實現(xiàn)這個功能?把用戶最近搜索的所有可能的單詞列出來,然后計算條件概率:

  • P(mask|elon)=0.5

  • P(jerk|elon)=0.1

  • P(university|elon)=0.2

  • ...

把它們排個序,選出條件概率最大的幾個,就是搜索建議。

諸如反垃圾郵件、電商推薦系統(tǒng)等,都是貝葉斯理論在機(jī)器學(xué)習(xí)中的應(yīng)用。由于需要大量的計算,貝葉斯理論也只有在計算機(jī)時代才能廣泛應(yīng)用。

關(guān)于信念

我們再回顧一下貝葉斯定理:

P(H\vert E)=\frac{P(E\vert H)\times P(H)}{P(E)}P(HE)=P(E)P(EHP(H)

稍微改一下,變?yōu)椋?/p>

P(H\vert E)=P(H)\times\frac{P(E\vert H)}{P(E)}P(HE)=P(H)×P(E)P(EH)

P(H)是先驗概率,P(H|E)是后驗概率,P(E|H)/P(E)被稱為調(diào)整因子,先驗概率乘以調(diào)整因子就得到后驗概率。

我們發(fā)現(xiàn),如果P(H)=0,則P(H|E)=0;如果P(H)=1,則P(E|H)=P(E),P(H|E)=1。

也就是說,如果先驗概率為0%或100%,那么,無論出現(xiàn)任何證據(jù)E,都無法改變后驗概率P(H|E)。這對我們看待世界的認(rèn)知有重大指導(dǎo)意義,因為貝葉斯概率的本質(zhì)是信念,通過一次次事件,我們可能加強某種信念,也可能減弱某種信念,但如果信念保持100%或0%,則可以做到對外界輸入完全“免疫”。

舉個例子,十年前許多人都認(rèn)為比特幣是龐氏騙局,如果100%堅定地持有這種信念,那么他將無視用戶越來越多、價格上漲、交易量擴(kuò)大、機(jī)構(gòu)入市等諸多證據(jù),至今仍然會堅信比特幣是騙局而錯過無數(shù)次機(jī)會。(注:此處示例不構(gòu)成任何投資建議)

對于新生事物,每個人都可以有非常主觀的先驗概率,但只要我們不把先驗概率定死為0或100%,就有機(jī)會改變自己的信念,從而更有可能接近客觀事實,這也是貝葉斯定理的精髓:

你相信什么并不重要,重要的是你別完全相信它。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多