小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

深度學(xué)習(xí)貝葉斯,這是一份密集的6天速成課程(視頻與PPT)

 jc_ipec 2018-09-08

選自GitHub

Bayesian Methods Research Group

機(jī)器之心整理


在 Deep|Bayes 夏季課程中,授課人將討論貝葉斯方法如何結(jié)合深度學(xué)習(xí),并在機(jī)器學(xué)習(xí)應(yīng)用中實(shí)現(xiàn)更好的結(jié)果。近期研究表明貝葉斯方法的利用可以帶來許多好處。學(xué)生將學(xué)到對理解當(dāng)前機(jī)器學(xué)習(xí)研究非常重要的方法和技術(shù)。他們還將體會貝葉斯方法和強(qiáng)化學(xué)習(xí)之間的聯(lián)系,學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的現(xiàn)代隨機(jī)優(yōu)化方法和正則化技術(shù)。在課程之后,授課人還設(shè)置了實(shí)踐環(huán)節(jié)。



  • 項(xiàng)目地址:https://github.com/bayesgroup/deepbayes-2018

  • 視頻地址:https://www./playlist?list=PLe5rNUydzV9Q01vWCP9BV7NhJG3j7mz62

  • PPT 地址:https://drive.google.com/drive/folders/1rJ-HTN3sNTvhJXPoXEEhfGlZWtjNY26C


教師


多數(shù)講師和助教都是貝葉斯方法研究團(tuán)隊(duì)的成員以及來自世界頂級研究中心的研究者。很多講師曾經(jīng)在頂級國際機(jī)器學(xué)習(xí)會議例如 NIPS、ICML、ICCV、CVPR、ICLR、AISTATS 等發(fā)表過論文。貝葉斯方法研究團(tuán)隊(duì)已經(jīng)開發(fā)了一系列的大學(xué)課程,包括貝葉斯方法、深度學(xué)習(xí)、優(yōu)化以及概率圖模型,擁有大量的教學(xué)經(jīng)驗(yàn)。


學(xué)生


該夏季課程面向:


  • 本科生(最好已完成至少兩年的大學(xué)課程),以及擁有很強(qiáng)數(shù)學(xué)背景、具備足夠機(jī)器學(xué)習(xí)知識(包括深度學(xué)習(xí))的碩士生。

  • 想要擴(kuò)展知識和技能的機(jī)器學(xué)習(xí)領(lǐng)域或相關(guān)領(lǐng)域研究者和行業(yè)專家。


學(xué)習(xí)本課程的必備基礎(chǔ)


  1. 機(jī)器學(xué)習(xí)的扎實(shí)基礎(chǔ),熟悉深度學(xué)習(xí)。

  2. 數(shù)學(xué):熟練線性代數(shù)和概率論(很重要)。

  3. 編程:Python、PyTorch 和 NumPy。

  4. Deep|Bayes 2018 夏季課程中使用英語,因此學(xué)生應(yīng)該熟悉技術(shù)英語。


我在 Deep|Bayes 能學(xué)到什么?


  • 貝葉斯方法為什么(在機(jī)器學(xué)習(xí)和日常生活中)這么有用?隨機(jī)性到底是什么?

  • 隱變量模型。如何訓(xùn)練模型識別在訓(xùn)練前未知的模式?

  • 可擴(kuò)展的概率模型。為什么將概率推斷問題轉(zhuǎn)換為優(yōu)化問題是有用的?

  • 強(qiáng)化學(xué)習(xí)和貝葉斯方法之間的聯(lián)系。如何訓(xùn)練隨機(jī)計(jì)算圖?

  • 自動 Dropout 率的微調(diào)。神經(jīng)網(wǎng)絡(luò)會過擬合嗎?(會的)

  • 隨機(jī)優(yōu)化。如何以比計(jì)算一個點(diǎn)的函數(shù)值更快的速度來優(yōu)化函數(shù)?



該課程的目標(biāo)是展示在深度學(xué)習(xí)中使用貝葉斯方法可以擴(kuò)展其應(yīng)用范圍,并提升性能。盡管機(jī)器學(xué)習(xí)中有很多不同的問題設(shè)定,但貝葉斯網(wǎng)絡(luò)的概率推斷可以用相似的方式來解決它們。你,心動了嗎?


課程主要內(nèi)容


整個課程涉及貝葉斯學(xué)習(xí)的方方面面,從最基礎(chǔ)的貝葉斯原理到比較難的變分推斷和馬爾可夫鏈蒙特卡洛方法。以下展示了整個課程的主題列表,機(jī)器之心將簡要介紹部分課程內(nèi)容。


第一天:

  • 貝葉斯方法簡介

  • 貝葉斯推理

  • 隱變量模型和 EM 算法

  • EM 算法


第二天:

  • 隨機(jī)優(yōu)化簡介

  • 可擴(kuò)展貝葉斯方法

  • 變分自編碼器

  • 狄利克雷隱變量


第三天:

  • 變分推斷高級方法

  • 變分推斷視角下的強(qiáng)化學(xué)習(xí)

  • 強(qiáng)化學(xué)習(xí)

  • 分布式強(qiáng)化學(xué)習(xí)


第四天:

  • 生成模型

  • 對抗學(xué)習(xí)

  • 擴(kuò)展再參數(shù)化的技巧


第五天:

  • 高斯過程

  • 貝葉斯優(yōu)化

  • 深度高斯過程

  • 馬爾可夫鏈蒙特卡洛方法

  • 隨機(jī)馬爾可夫鏈蒙特卡洛方法


第六天:

  • 貝葉斯神經(jīng)網(wǎng)絡(luò)和變分 Dropout

  • 稀疏變分 Dropout 和方差網(wǎng)絡(luò)

  • 信息瓶頸


整個課程需要六天才能完成,且每一天的的課程量都非常大,因此機(jī)器之心只簡要介紹最基本的貝葉斯方法和隱變量模型,其中貝葉斯方法是整個課程的核心思想,而隱變量模型又是生成模型等很多高級方法的基礎(chǔ)。


貝葉斯方法簡介


我們首先圍繞「盲人摸象」的例子來介紹貝葉斯定理,然后簡單描述頻率學(xué)派和貝葉斯學(xué)派的區(qū)別。


1 貝葉斯定理:


首先貝葉斯定理的基本形式為



即后驗(yàn)=似然度 x 先驗(yàn)/證據(jù)


形式化的樣子是



現(xiàn)在我們開始討論「盲人摸象」問題。



一群「盲人」在摸一頭大象,試圖猜測摸的是什么東西,然而沒有一個人猜的是正確的。在不確定的世界里,這就是我們在用概率論理解世界時的樣子。


為簡單起見,我們把問題設(shè)置得簡單一些:一群「盲人」在摸一頭大象,并且知道這是一頭大象,他們希望根據(jù)摸到的東西猜測大象的重量。


貝葉斯方法是怎么解決這個問題的呢?


我們假設(shè)這些盲人之間會互相交流觀察結(jié)果,并且都擁有一定的共同常識,也就是對大象重量的最初猜測:



然后他們可以這樣:


第一個人的觀察結(jié)果是摸到了尾巴,以及尾巴的長度 y1,然后重新猜測大象的重量;


第二個人將第一個人的猜測作為先驗(yàn),并且觀察結(jié)果是摸到了肚子,以及肚子的面積 y2,然后再次猜測大象的重量;


第三個人同理,根據(jù)第二個人的猜測,繼續(xù)觀察、猜測……


在此過程中,他們一開始的共有常識、大象的猜測重量即先驗(yàn) P(x),第一個人的觀察結(jié)果即似然度 P(y1|x),觀察結(jié)果本身出現(xiàn)的可能性就是證據(jù) P(y1),最后就得到的是 P(x|y1),也就是根據(jù)觀察結(jié)果 y 得到的大象重量為 x 的可能性(概率分布):



而第二個人在此基礎(chǔ)上,將能得到 P(x|y1,y2):



第三個人將能得到 P(x|y1,y2,y3)……


好了,隨著觀察報(bào)告的增加,這頭大象的重量也越來越藏不住了(峰值變得尖銳):



當(dāng)然,授課人在課程中會很詳細(xì)地把概念一步一步講清楚,包括條件分布、聯(lián)合分布、邊緣分布之間的關(guān)系,以及乘積規(guī)則、和規(guī)則的介紹,可以把上面這個例子涉及的各個概念串聯(lián)起來,幫助學(xué)生理解得更加透徹。



2 頻率學(xué)派和貝葉斯學(xué)派的聯(lián)系和區(qū)別:


頻率學(xué)派不假設(shè)任何的先驗(yàn)知識,不參照過去的經(jīng)驗(yàn),只按照當(dāng)前已有的數(shù)據(jù)進(jìn)行概率推斷。而貝葉斯學(xué)派會假設(shè)先驗(yàn)知識的存在(猜測大象的重量),然后再用采樣逐漸修改先驗(yàn)知識并逼近真實(shí)知識。但實(shí)際上,在數(shù)據(jù)量趨近無窮時,頻率學(xué)派和貝葉斯學(xué)派得到的結(jié)果是一樣的,也就是說頻率方法是貝葉斯方法的極限。



以上就是貝葉斯方法的基礎(chǔ)理論部分的大致內(nèi)容,之后還有生成、判別模型的區(qū)別,貝葉斯訓(xùn)練過程以及貝葉斯方法優(yōu)勢的討論。


隱變量模型


前面簡要介紹了貝葉斯方法的核心思想貝葉斯定理,而在這一章節(jié)中,Dmitry Vetrov 重點(diǎn)介紹了隱變量模型。隱變量模型是很多復(fù)雜方法的基礎(chǔ),例如在變分自編碼器這一生成模型中,我們希望將圖像壓縮為一系列的隱變量,這些隱變量表示了圖像的高級語義信息,例如圖像主體的傾角、顏色和位置等。


這一部分我們會根據(jù) Dmitry Vetrov 介紹的內(nèi)容討論隱變量模型的直觀概念、KL 散度、混合分布和變分下界等。


如前所述,VAE 最大的優(yōu)勢即中間編碼的短向量代表了圖像的某些語義特征,但又因?yàn)槲覀儾荒苊鞔_地知道具體是哪些圖像特征,因此我們可以把這個短向量稱之為隱變量。直觀上來說,完全從整體上一個個像素生成圖像是非常困難的,因?yàn)槲覀冃枰紤]的可能性太多。而如果先決定要生成圖像的特征,再根據(jù)這幅藍(lán)圖生成圖像就會容易很多。


VAE 正是這樣,先學(xué)習(xí)如何將圖像正確地壓縮為一組隱變量,然后再學(xué)習(xí)如何根據(jù)隱變量生成圖像。當(dāng)模型完成學(xué)習(xí)后,我們給定任意一組隱變量,模型都會嘗試生成正確的圖像。這也就是隱變量模型的直觀概念。


KL 散度一般作為兩個分布間距離的度量方法,它常用于生成模型的損失函數(shù)。以下展示了 KL 散度的直觀理解,即分布 Q(z) 與分布 P(Z) 之間越重合,那么 KL 散度就越小,兩個分布之間的距離就越近。



在離散型變量的情況下,KL 散度衡量的是,當(dāng)我們使用一種被設(shè)計(jì)成能夠使概率分布 Q 產(chǎn)生的消息的長度最小的編碼,發(fā)送包含由概率分布 P 產(chǎn)生的符號的消息時,所需要的額外信息量。KL 散度有很多有用的性質(zhì),最重要的是它是非負(fù)的。KL 散度為 0 當(dāng)且僅當(dāng) P 和 Q 在離散型變量的情況下是相同的分布,或者在連續(xù)型變量的情況下是 『幾乎處處』相同的。


隨后 Dmitry Vetrov 展示了隱變量建模的案例,如果我們有一些服從未知高斯分布的樣本,那么我們可以用最大似然估計(jì)或點(diǎn)估計(jì)等方法將該未知分布的均值和方差推斷出來。



而現(xiàn)在如果我們假設(shè)有一組采自不同高斯分布的樣本,且我們需要估計(jì)這些高斯分布的參數(shù)。這個問題看上去不能解決,但如果我們知道哪些樣本是從具體哪一個高斯分布中采樣,這個問題就比較容易解決。



但是如果我們不知道樣本是從哪個高斯分布中采樣的,那么我們就只能使用隱變量模型。它主要的思想即先估計(jì)這些樣本屬于哪一個高斯分布,也就是將樣本映射到隱變量「均值」和「方差」。然后再基于隱變量完成對三個高斯分布的建模。


隨后順著這個想法,我們可以構(gòu)建一個混合高斯模型,并希望將數(shù)據(jù)編碼為隱變量 Z,再根據(jù)該隱變量完成建模。如下所示當(dāng)我們不知道隱變量 Z 的情況下,最大化從 Z 中采樣出樣本 X 的概率,就能推導(dǎo)出最大化變分下界,這也是變分自編碼器最核心的表達(dá)式。



變分自編碼器中最大化變分下界(ELBO)就可以作為整個模型的優(yōu)化目標(biāo),或者說整個模型的損失函數(shù)。在上面的案例中,最大化這個變分下界就代表著找出一些高斯分布,且每一個樣本都最可能屬于某個高斯分布。


整個課程介紹了非常多的理論知識,尤其是關(guān)于貝葉斯學(xué)派的各種理論。如果讀者對數(shù)學(xué)比較有自信的話,可以詳細(xì)學(xué)一學(xué)該系列教程。



掃描下圖二維碼,參與Arm人工智能開發(fā)者全球峰會↓

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多