深度學(xué)習(xí)貝葉斯，這是一份密集的6天速成課程（視頻與PPT）

jc_ipec 2018-09-08

展開全文

選自GitHub

Bayesian Methods Research Group

機(jī)器之心整理

在 Deep|Bayes 夏季課程中，授課人將討論貝葉斯方法如何結(jié)合深度學(xué)習(xí)，并在機(jī)器學(xué)習(xí)應(yīng)用中實(shí)現(xiàn)更好的結(jié)果。近期研究表明貝葉斯方法的利用可以帶來許多好處。學(xué)生將學(xué)到對理解當(dāng)前機(jī)器學(xué)習(xí)研究非常重要的方法和技術(shù)。他們還將體會貝葉斯方法和強(qiáng)化學(xué)習(xí)之間的聯(lián)系，學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的現(xiàn)代隨機(jī)優(yōu)化方法和正則化技術(shù)。在課程之后，授課人還設(shè)置了實(shí)踐環(huán)節(jié)。

項(xiàng)目地址：https://github.com/bayesgroup/deepbayes-2018
視頻地址：https://www./playlist?list=PLe5rNUydzV9Q01vWCP9BV7NhJG3j7mz62
PPT 地址：https://drive.google.com/drive/folders/1rJ-HTN3sNTvhJXPoXEEhfGlZWtjNY26C

教師

多數(shù)講師和助教都是貝葉斯方法研究團(tuán)隊(duì)的成員以及來自世界頂級研究中心的研究者。很多講師曾經(jīng)在頂級國際機(jī)器學(xué)習(xí)會議例如 NIPS、ICML、ICCV、CVPR、ICLR、AISTATS 等發(fā)表過論文。貝葉斯方法研究團(tuán)隊(duì)已經(jīng)開發(fā)了一系列的大學(xué)課程，包括貝葉斯方法、深度學(xué)習(xí)、優(yōu)化以及概率圖模型，擁有大量的教學(xué)經(jīng)驗(yàn)。

學(xué)生

該夏季課程面向：

本科生（最好已完成至少兩年的大學(xué)課程），以及擁有很強(qiáng)數(shù)學(xué)背景、具備足夠機(jī)器學(xué)習(xí)知識（包括深度學(xué)習(xí)）的碩士生。
想要擴(kuò)展知識和技能的機(jī)器學(xué)習(xí)領(lǐng)域或相關(guān)領(lǐng)域研究者和行業(yè)專家。

學(xué)習(xí)本課程的必備基礎(chǔ)

機(jī)器學(xué)習(xí)的扎實(shí)基礎(chǔ)，熟悉深度學(xué)習(xí)。
數(shù)學(xué)：熟練線性代數(shù)和概率論（很重要）。
編程：Python、PyTorch 和 NumPy。
Deep|Bayes 2018 夏季課程中使用英語，因此學(xué)生應(yīng)該熟悉技術(shù)英語。

我在 Deep|Bayes 能學(xué)到什么？

貝葉斯方法為什么（在機(jī)器學(xué)習(xí)和日常生活中）這么有用？隨機(jī)性到底是什么？
隱變量模型。如何訓(xùn)練模型識別在訓(xùn)練前未知的模式？
可擴(kuò)展的概率模型。為什么將概率推斷問題轉(zhuǎn)換為優(yōu)化問題是有用的？
強(qiáng)化學(xué)習(xí)和貝葉斯方法之間的聯(lián)系。如何訓(xùn)練隨機(jī)計(jì)算圖？
自動 Dropout 率的微調(diào)。神經(jīng)網(wǎng)絡(luò)會過擬合嗎？（會的）
隨機(jī)優(yōu)化。如何以比計(jì)算一個點(diǎn)的函數(shù)值更快的速度來優(yōu)化函數(shù)？

該課程的目標(biāo)是展示在深度學(xué)習(xí)中使用貝葉斯方法可以擴(kuò)展其應(yīng)用范圍，并提升性能。盡管機(jī)器學(xué)習(xí)中有很多不同的問題設(shè)定，但貝葉斯網(wǎng)絡(luò)的概率推斷可以用相似的方式來解決它們。你，心動了嗎？

課程主要內(nèi)容

整個課程涉及貝葉斯學(xué)習(xí)的方方面面，從最基礎(chǔ)的貝葉斯原理到比較難的變分推斷和馬爾可夫鏈蒙特卡洛方法。以下展示了整個課程的主題列表，機(jī)器之心將簡要介紹部分課程內(nèi)容。

第一天：

貝葉斯方法簡介
貝葉斯推理
隱變量模型和 EM 算法
EM 算法

第二天：

隨機(jī)優(yōu)化簡介
可擴(kuò)展貝葉斯方法
變分自編碼器
狄利克雷隱變量

第三天：

變分推斷高級方法
變分推斷視角下的強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)
分布式強(qiáng)化學(xué)習(xí)

第四天：

生成模型
對抗學(xué)習(xí)
擴(kuò)展再參數(shù)化的技巧

第五天：

高斯過程
貝葉斯優(yōu)化
深度高斯過程
馬爾可夫鏈蒙特卡洛方法
隨機(jī)馬爾可夫鏈蒙特卡洛方法

第六天：

貝葉斯神經(jīng)網(wǎng)絡(luò)和變分 Dropout
稀疏變分 Dropout 和方差網(wǎng)絡(luò)
信息瓶頸

整個課程需要六天才能完成，且每一天的的課程量都非常大，因此機(jī)器之心只簡要介紹最基本的貝葉斯方法和隱變量模型，其中貝葉斯方法是整個課程的核心思想，而隱變量模型又是生成模型等很多高級方法的基礎(chǔ)。

貝葉斯方法簡介

我們首先圍繞「盲人摸象」的例子來介紹貝葉斯定理，然后簡單描述頻率學(xué)派和貝葉斯學(xué)派的區(qū)別。

1 貝葉斯定理：

首先貝葉斯定理的基本形式為

即后驗(yàn)=似然度 x 先驗(yàn)/證據(jù)

形式化的樣子是

現(xiàn)在我們開始討論「盲人摸象」問題。

一群「盲人」在摸一頭大象，試圖猜測摸的是什么東西，然而沒有一個人猜的是正確的。在不確定的世界里，這就是我們在用概率論理解世界時的樣子。

為簡單起見，我們把問題設(shè)置得簡單一些：一群「盲人」在摸一頭大象，并且知道這是一頭大象，他們希望根據(jù)摸到的東西猜測大象的重量。

貝葉斯方法是怎么解決這個問題的呢？

我們假設(shè)這些盲人之間會互相交流觀察結(jié)果，并且都擁有一定的共同常識，也就是對大象重量的最初猜測：

然后他們可以這樣：

第一個人的觀察結(jié)果是摸到了尾巴，以及尾巴的長度 y1，然后重新猜測大象的重量；

第二個人將第一個人的猜測作為先驗(yàn)，并且觀察結(jié)果是摸到了肚子，以及肚子的面積 y2，然后再次猜測大象的重量；

第三個人同理，根據(jù)第二個人的猜測，繼續(xù)觀察、猜測……

在此過程中，他們一開始的共有常識、大象的猜測重量即先驗(yàn) P(x)，第一個人的觀察結(jié)果即似然度 P(y1|x)，觀察結(jié)果本身出現(xiàn)的可能性就是證據(jù) P(y1)，最后就得到的是 P(x|y1)，也就是根據(jù)觀察結(jié)果 y 得到的大象重量為 x 的可能性（概率分布）：

而第二個人在此基礎(chǔ)上，將能得到 P(x|y1,y2)：

第三個人將能得到 P(x|y1,y2,y3)……

好了，隨著觀察報(bào)告的增加，這頭大象的重量也越來越藏不住了（峰值變得尖銳）：

當(dāng)然，授課人在課程中會很詳細(xì)地把概念一步一步講清楚，包括條件分布、聯(lián)合分布、邊緣分布之間的關(guān)系，以及乘積規(guī)則、和規(guī)則的介紹，可以把上面這個例子涉及的各個概念串聯(lián)起來，幫助學(xué)生理解得更加透徹。

2 頻率學(xué)派和貝葉斯學(xué)派的聯(lián)系和區(qū)別：

頻率學(xué)派不假設(shè)任何的先驗(yàn)知識，不參照過去的經(jīng)驗(yàn)，只按照當(dāng)前已有的數(shù)據(jù)進(jìn)行概率推斷。而貝葉斯學(xué)派會假設(shè)先驗(yàn)知識的存在（猜測大象的重量），然后再用采樣逐漸修改先驗(yàn)知識并逼近真實(shí)知識。但實(shí)際上，在數(shù)據(jù)量趨近無窮時，頻率學(xué)派和貝葉斯學(xué)派得到的結(jié)果是一樣的，也就是說頻率方法是貝葉斯方法的極限。

以上就是貝葉斯方法的基礎(chǔ)理論部分的大致內(nèi)容，之后還有生成、判別模型的區(qū)別，貝葉斯訓(xùn)練過程以及貝葉斯方法優(yōu)勢的討論。

隱變量模型

前面簡要介紹了貝葉斯方法的核心思想貝葉斯定理，而在這一章節(jié)中，Dmitry Vetrov 重點(diǎn)介紹了隱變量模型。隱變量模型是很多復(fù)雜方法的基礎(chǔ)，例如在變分自編碼器這一生成模型中，我們希望將圖像壓縮為一系列的隱變量，這些隱變量表示了圖像的高級語義信息，例如圖像主體的傾角、顏色和位置等。

這一部分我們會根據(jù) Dmitry Vetrov 介紹的內(nèi)容討論隱變量模型的直觀概念、KL 散度、混合分布和變分下界等。

如前所述，VAE 最大的優(yōu)勢即中間編碼的短向量代表了圖像的某些語義特征，但又因?yàn)槲覀儾荒苊鞔_地知道具體是哪些圖像特征，因此我們可以把這個短向量稱之為隱變量。直觀上來說，完全從整體上一個個像素生成圖像是非常困難的，因?yàn)槲覀冃枰紤]的可能性太多。而如果先決定要生成圖像的特征，再根據(jù)這幅藍(lán)圖生成圖像就會容易很多。

VAE 正是這樣，先學(xué)習(xí)如何將圖像正確地壓縮為一組隱變量，然后再學(xué)習(xí)如何根據(jù)隱變量生成圖像。當(dāng)模型完成學(xué)習(xí)后，我們給定任意一組隱變量，模型都會嘗試生成正確的圖像。這也就是隱變量模型的直觀概念。

KL 散度一般作為兩個分布間距離的度量方法，它常用于生成模型的損失函數(shù)。以下展示了 KL 散度的直觀理解，即分布 Q(z) 與分布 P(Z) 之間越重合，那么 KL 散度就越小，兩個分布之間的距離就越近。

在離散型變量的情況下，KL 散度衡量的是，當(dāng)我們使用一種被設(shè)計(jì)成能夠使概率分布 Q 產(chǎn)生的消息的長度最小的編碼，發(fā)送包含由概率分布 P 產(chǎn)生的符號的消息時，所需要的額外信息量。KL 散度有很多有用的性質(zhì)，最重要的是它是非負(fù)的。KL 散度為 0 當(dāng)且僅當(dāng) P 和 Q 在離散型變量的情況下是相同的分布，或者在連續(xù)型變量的情況下是『幾乎處處』相同的。

隨后 Dmitry Vetrov 展示了隱變量建模的案例，如果我們有一些服從未知高斯分布的樣本，那么我們可以用最大似然估計(jì)或點(diǎn)估計(jì)等方法將該未知分布的均值和方差推斷出來。

而現(xiàn)在如果我們假設(shè)有一組采自不同高斯分布的樣本，且我們需要估計(jì)這些高斯分布的參數(shù)。這個問題看上去不能解決，但如果我們知道哪些樣本是從具體哪一個高斯分布中采樣，這個問題就比較容易解決。

但是如果我們不知道樣本是從哪個高斯分布中采樣的，那么我們就只能使用隱變量模型。它主要的思想即先估計(jì)這些樣本屬于哪一個高斯分布，也就是將樣本映射到隱變量「均值」和「方差」。然后再基于隱變量完成對三個高斯分布的建模。

隨后順著這個想法，我們可以構(gòu)建一個混合高斯模型，并希望將數(shù)據(jù)編碼為隱變量 Z，再根據(jù)該隱變量完成建模。如下所示當(dāng)我們不知道隱變量 Z 的情況下，最大化從 Z 中采樣出樣本 X 的概率，就能推導(dǎo)出最大化變分下界，這也是變分自編碼器最核心的表達(dá)式。

變分自編碼器中最大化變分下界（ELBO）就可以作為整個模型的優(yōu)化目標(biāo)，或者說整個模型的損失函數(shù)。在上面的案例中，最大化這個變分下界就代表著找出一些高斯分布，且每一個樣本都最可能屬于某個高斯分布。

整個課程介紹了非常多的理論知識，尤其是關(guān)于貝葉斯學(xué)派的各種理論。如果讀者對數(shù)學(xué)比較有自信的話，可以詳細(xì)學(xué)一學(xué)該系列教程。

掃描下圖二維碼，參與Arm人工智能開發(fā)者全球峰會↓

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： jc_ipec > 《Science》

舉報(bào)/認(rèn)領(lǐng)