選自GitHub Bayesian Methods Research Group 機(jī)器之心整理
教師 多數(shù)講師和助教都是貝葉斯方法研究團(tuán)隊(duì)的成員以及來自世界頂級研究中心的研究者。很多講師曾經(jīng)在頂級國際機(jī)器學(xué)習(xí)會議例如 NIPS、ICML、ICCV、CVPR、ICLR、AISTATS 等發(fā)表過論文。貝葉斯方法研究團(tuán)隊(duì)已經(jīng)開發(fā)了一系列的大學(xué)課程,包括貝葉斯方法、深度學(xué)習(xí)、優(yōu)化以及概率圖模型,擁有大量的教學(xué)經(jīng)驗(yàn)。 學(xué)生 該夏季課程面向:
學(xué)習(xí)本課程的必備基礎(chǔ)
我在 Deep|Bayes 能學(xué)到什么?
該課程的目標(biāo)是展示在深度學(xué)習(xí)中使用貝葉斯方法可以擴(kuò)展其應(yīng)用范圍,并提升性能。盡管機(jī)器學(xué)習(xí)中有很多不同的問題設(shè)定,但貝葉斯網(wǎng)絡(luò)的概率推斷可以用相似的方式來解決它們。你,心動了嗎? 課程主要內(nèi)容 整個課程涉及貝葉斯學(xué)習(xí)的方方面面,從最基礎(chǔ)的貝葉斯原理到比較難的變分推斷和馬爾可夫鏈蒙特卡洛方法。以下展示了整個課程的主題列表,機(jī)器之心將簡要介紹部分課程內(nèi)容。 第一天:
第二天:
第三天:
第四天:
第五天:
第六天:
整個課程需要六天才能完成,且每一天的的課程量都非常大,因此機(jī)器之心只簡要介紹最基本的貝葉斯方法和隱變量模型,其中貝葉斯方法是整個課程的核心思想,而隱變量模型又是生成模型等很多高級方法的基礎(chǔ)。 貝葉斯方法簡介 我們首先圍繞「盲人摸象」的例子來介紹貝葉斯定理,然后簡單描述頻率學(xué)派和貝葉斯學(xué)派的區(qū)別。 1 貝葉斯定理: 首先貝葉斯定理的基本形式為 即后驗(yàn)=似然度 x 先驗(yàn)/證據(jù) 形式化的樣子是 現(xiàn)在我們開始討論「盲人摸象」問題。 一群「盲人」在摸一頭大象,試圖猜測摸的是什么東西,然而沒有一個人猜的是正確的。在不確定的世界里,這就是我們在用概率論理解世界時的樣子。 為簡單起見,我們把問題設(shè)置得簡單一些:一群「盲人」在摸一頭大象,并且知道這是一頭大象,他們希望根據(jù)摸到的東西猜測大象的重量。 貝葉斯方法是怎么解決這個問題的呢? 我們假設(shè)這些盲人之間會互相交流觀察結(jié)果,并且都擁有一定的共同常識,也就是對大象重量的最初猜測: 然后他們可以這樣: 第一個人的觀察結(jié)果是摸到了尾巴,以及尾巴的長度 y1,然后重新猜測大象的重量; 第二個人將第一個人的猜測作為先驗(yàn),并且觀察結(jié)果是摸到了肚子,以及肚子的面積 y2,然后再次猜測大象的重量; 第三個人同理,根據(jù)第二個人的猜測,繼續(xù)觀察、猜測…… 在此過程中,他們一開始的共有常識、大象的猜測重量即先驗(yàn) P(x),第一個人的觀察結(jié)果即似然度 P(y1|x),觀察結(jié)果本身出現(xiàn)的可能性就是證據(jù) P(y1),最后就得到的是 P(x|y1),也就是根據(jù)觀察結(jié)果 y 得到的大象重量為 x 的可能性(概率分布): 而第二個人在此基礎(chǔ)上,將能得到 P(x|y1,y2): 第三個人將能得到 P(x|y1,y2,y3)…… 好了,隨著觀察報(bào)告的增加,這頭大象的重量也越來越藏不住了(峰值變得尖銳): 當(dāng)然,授課人在課程中會很詳細(xì)地把概念一步一步講清楚,包括條件分布、聯(lián)合分布、邊緣分布之間的關(guān)系,以及乘積規(guī)則、和規(guī)則的介紹,可以把上面這個例子涉及的各個概念串聯(lián)起來,幫助學(xué)生理解得更加透徹。 2 頻率學(xué)派和貝葉斯學(xué)派的聯(lián)系和區(qū)別: 頻率學(xué)派不假設(shè)任何的先驗(yàn)知識,不參照過去的經(jīng)驗(yàn),只按照當(dāng)前已有的數(shù)據(jù)進(jìn)行概率推斷。而貝葉斯學(xué)派會假設(shè)先驗(yàn)知識的存在(猜測大象的重量),然后再用采樣逐漸修改先驗(yàn)知識并逼近真實(shí)知識。但實(shí)際上,在數(shù)據(jù)量趨近無窮時,頻率學(xué)派和貝葉斯學(xué)派得到的結(jié)果是一樣的,也就是說頻率方法是貝葉斯方法的極限。 以上就是貝葉斯方法的基礎(chǔ)理論部分的大致內(nèi)容,之后還有生成、判別模型的區(qū)別,貝葉斯訓(xùn)練過程以及貝葉斯方法優(yōu)勢的討論。 隱變量模型 前面簡要介紹了貝葉斯方法的核心思想貝葉斯定理,而在這一章節(jié)中,Dmitry Vetrov 重點(diǎn)介紹了隱變量模型。隱變量模型是很多復(fù)雜方法的基礎(chǔ),例如在變分自編碼器這一生成模型中,我們希望將圖像壓縮為一系列的隱變量,這些隱變量表示了圖像的高級語義信息,例如圖像主體的傾角、顏色和位置等。 這一部分我們會根據(jù) Dmitry Vetrov 介紹的內(nèi)容討論隱變量模型的直觀概念、KL 散度、混合分布和變分下界等。 如前所述,VAE 最大的優(yōu)勢即中間編碼的短向量代表了圖像的某些語義特征,但又因?yàn)槲覀儾荒苊鞔_地知道具體是哪些圖像特征,因此我們可以把這個短向量稱之為隱變量。直觀上來說,完全從整體上一個個像素生成圖像是非常困難的,因?yàn)槲覀冃枰紤]的可能性太多。而如果先決定要生成圖像的特征,再根據(jù)這幅藍(lán)圖生成圖像就會容易很多。 VAE 正是這樣,先學(xué)習(xí)如何將圖像正確地壓縮為一組隱變量,然后再學(xué)習(xí)如何根據(jù)隱變量生成圖像。當(dāng)模型完成學(xué)習(xí)后,我們給定任意一組隱變量,模型都會嘗試生成正確的圖像。這也就是隱變量模型的直觀概念。 KL 散度一般作為兩個分布間距離的度量方法,它常用于生成模型的損失函數(shù)。以下展示了 KL 散度的直觀理解,即分布 Q(z) 與分布 P(Z) 之間越重合,那么 KL 散度就越小,兩個分布之間的距離就越近。 在離散型變量的情況下,KL 散度衡量的是,當(dāng)我們使用一種被設(shè)計(jì)成能夠使概率分布 Q 產(chǎn)生的消息的長度最小的編碼,發(fā)送包含由概率分布 P 產(chǎn)生的符號的消息時,所需要的額外信息量。KL 散度有很多有用的性質(zhì),最重要的是它是非負(fù)的。KL 散度為 0 當(dāng)且僅當(dāng) P 和 Q 在離散型變量的情況下是相同的分布,或者在連續(xù)型變量的情況下是 『幾乎處處』相同的。 隨后 Dmitry Vetrov 展示了隱變量建模的案例,如果我們有一些服從未知高斯分布的樣本,那么我們可以用最大似然估計(jì)或點(diǎn)估計(jì)等方法將該未知分布的均值和方差推斷出來。 而現(xiàn)在如果我們假設(shè)有一組采自不同高斯分布的樣本,且我們需要估計(jì)這些高斯分布的參數(shù)。這個問題看上去不能解決,但如果我們知道哪些樣本是從具體哪一個高斯分布中采樣,這個問題就比較容易解決。 但是如果我們不知道樣本是從哪個高斯分布中采樣的,那么我們就只能使用隱變量模型。它主要的思想即先估計(jì)這些樣本屬于哪一個高斯分布,也就是將樣本映射到隱變量「均值」和「方差」。然后再基于隱變量完成對三個高斯分布的建模。 隨后順著這個想法,我們可以構(gòu)建一個混合高斯模型,并希望將數(shù)據(jù)編碼為隱變量 Z,再根據(jù)該隱變量完成建模。如下所示當(dāng)我們不知道隱變量 Z 的情況下,最大化從 Z 中采樣出樣本 X 的概率,就能推導(dǎo)出最大化變分下界,這也是變分自編碼器最核心的表達(dá)式。 變分自編碼器中最大化變分下界(ELBO)就可以作為整個模型的優(yōu)化目標(biāo),或者說整個模型的損失函數(shù)。在上面的案例中,最大化這個變分下界就代表著找出一些高斯分布,且每一個樣本都最可能屬于某個高斯分布。 整個課程介紹了非常多的理論知識,尤其是關(guān)于貝葉斯學(xué)派的各種理論。如果讀者對數(shù)學(xué)比較有自信的話,可以詳細(xì)學(xué)一學(xué)該系列教程。 掃描下圖二維碼,參與Arm人工智能開發(fā)者全球峰會↓
|
|