小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

深度學(xué)習(xí)史上最全總結(jié)(文末有福利)

 txwl 2015-07-11

深度學(xué)習(xí)(Deep Learning),這是一個(gè)在近幾年火遍各個(gè)領(lǐng)域的詞匯,似乎所有的算法只要跟它扯上關(guān)系,瞬間就顯得高大上起來(lái)。但其實(shí),從2006年Hinton在Science上的論文算起,深度學(xué)習(xí)發(fā)展至今才不到十年。



四大金剛鎮(zhèn)樓


在這短短幾年時(shí)間里,深度學(xué)習(xí)顛覆了語(yǔ)音識(shí)別、圖像分類、文本理解等眾多領(lǐng)域的算法設(shè)計(jì)思路,漸漸形成了一種從訓(xùn)練數(shù)據(jù)出發(fā),經(jīng)過(guò)一個(gè)端到端(end-to-end)的模型,然后直接輸出得到最終結(jié)果的一種新模式。這不僅讓一切變得更加簡(jiǎn)單,而且由于深度學(xué)習(xí)中的每一層都可以為了最終的任務(wù)來(lái)調(diào)整自己,最終實(shí)現(xiàn)各層之間的通力合作,因而可以大大提高任務(wù)的準(zhǔn)確度。隨著大數(shù)據(jù)時(shí)代的到來(lái)以及GPU等各種更加強(qiáng)大的計(jì)算設(shè)備的發(fā)展,深度學(xué)習(xí)如虎添翼,可以充分利用各種海量數(shù)據(jù)(標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)或者僅僅數(shù)據(jù)本身),完全自動(dòng)地學(xué)習(xí)到抽象的知識(shí)表達(dá),即把原始數(shù)據(jù)濃縮成某種知識(shí)。


當(dāng)然,深度學(xué)習(xí)不見(jiàn)得是最完美的框架,離最終所謂的智能也還差得很遠(yuǎn),而且目前還基本沒(méi)有理論上的有效性解釋。但是,無(wú)論如何,深度學(xué)習(xí)之風(fēng)已經(jīng)勢(shì)不可擋!


深度學(xué)習(xí)本質(zhì)上其實(shí)就是多層神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)這個(gè)東西幾十年前大家就開(kāi)始研究了。我們知道,神經(jīng)網(wǎng)絡(luò)的一層,其實(shí)就是一個(gè)線性變換加上一個(gè)簡(jiǎn)單的非線性操作,而多層神經(jīng)網(wǎng)絡(luò)其實(shí)就是多個(gè)簡(jiǎn)單的非線性函數(shù)的復(fù)合。一層、兩層的網(wǎng)絡(luò)用途比較有限,往往很難刻畫輸入與輸出之間的復(fù)雜關(guān)系。但是深層的網(wǎng)絡(luò),歷史上又一直無(wú)法進(jìn)行有效訓(xùn)練。這大概是因?yàn)橛幸韵氯齻€(gè)難點(diǎn)難以突破:


優(yōu)化方面

(1)優(yōu)化策略的核心就是梯度下降法,但對(duì)于一個(gè)深層的網(wǎng)絡(luò),它的函數(shù)的梯度也非常復(fù)雜。于是,誤差反向傳播算法就經(jīng)常在參數(shù)初始值選擇不當(dāng)?shù)臅r(shí)候產(chǎn)生梯度消失或者梯度爆炸現(xiàn)象,導(dǎo)致優(yōu)化無(wú)法正常進(jìn)行。

(2)深層網(wǎng)絡(luò)由于是高度非線性的,有著太多的局部極值,很難保證能夠得到一個(gè)可以接受的好的解。
數(shù)據(jù)方面

早期,各種數(shù)據(jù)集往往都非常小,經(jīng)常是幾百幾千的規(guī)模。人們都側(cè)重于解決如何在小數(shù)據(jù)情形下的算法過(guò)擬合問(wèn)題,典型的就是SVM。這時(shí)候,復(fù)雜的多層神經(jīng)網(wǎng)絡(luò)根本用不上,他們?cè)跀?shù)據(jù)量不足的情況下會(huì)過(guò)擬合的非常嚴(yán)重。
計(jì)算能力方面

深度學(xué)習(xí)的經(jīng)典模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)其實(shí)在上世紀(jì)八九十年代就出現(xiàn)了,而且其中LeNet-5模型在簡(jiǎn)單的手寫體識(shí)別問(wèn)題上已經(jīng)取得了很大的成功。但是當(dāng)時(shí)的計(jì)算能力無(wú)法支持更大規(guī)模的網(wǎng)絡(luò),而LeNet-5在復(fù)雜物體識(shí)別上的表現(xiàn)也并不好,所以影響了人們對(duì)這一系列算法的進(jìn)一步研究。


由于以上種種原因,神經(jīng)網(wǎng)絡(luò)一度曾經(jīng)非常低調(diào)。直到2006年,著名的學(xué)者Geoffrey Hinton在Science上發(fā)表了一篇論文,給出了訓(xùn)練深層網(wǎng)絡(luò)的新思路。大概想法是先分層進(jìn)行預(yù)訓(xùn)練,然后把預(yù)訓(xùn)練的結(jié)果當(dāng)成模型參數(shù)的初始值,再?gòu)念^進(jìn)行正常的訓(xùn)練過(guò)程。這個(gè)想法現(xiàn)在看起來(lái)很簡(jiǎn)單,但對(duì)于全連型的深層網(wǎng)絡(luò)來(lái)說(shuō)卻是非常有效的。


關(guān)于語(yǔ)音識(shí)別


2009年,Hinton把深層神經(jīng)網(wǎng)絡(luò)介紹給做語(yǔ)音識(shí)別的學(xué)者們。然后2010年,語(yǔ)音識(shí)別就產(chǎn)生了巨大突破。本質(zhì)上是把傳統(tǒng)的混合高斯模型(GMM)替換成了深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,但相對(duì)識(shí)別錯(cuò)誤率一下降低20%多,這個(gè)改進(jìn)幅度超過(guò)了過(guò)去很多年的總和。這里的關(guān)鍵是把原來(lái)模型中通過(guò)GMM建模的手工特征換成了通過(guò)DNN進(jìn)行更加復(fù)雜的特征學(xué)習(xí)。在此之后,在深度學(xué)習(xí)框架下,人們還在不斷利用更好的模型和更多的訓(xùn)練數(shù)據(jù)進(jìn)一步改進(jìn)結(jié)果?,F(xiàn)在語(yǔ)音識(shí)別已經(jīng)真正變得比較成熟,并且被廣泛商用,且目前所有的商用語(yǔ)音識(shí)別算法沒(méi)有一個(gè)不是基于深度學(xué)習(xí)的。


關(guān)于視覺(jué)問(wèn)題


人們初步看到了深度網(wǎng)絡(luò)的優(yōu)勢(shì),但還是有很多人質(zhì)疑它。語(yǔ)音識(shí)別是成功了,那么圖像分類呢?2012年之前,深度學(xué)習(xí)好像還是只能處理像MNIST手寫體分類這樣的簡(jiǎn)單任務(wù)。說(shuō)來(lái)也巧,這時(shí)候正舉行了兩屆ImageNet比賽。這是一個(gè)比手寫體分類復(fù)雜得多的圖像分類任務(wù),總共有100萬(wàn)張圖片,分辨率300x300左右,1000個(gè)類別。前兩屆的冠軍采用的都是傳統(tǒng)人工設(shè)計(jì)特征然后學(xué)習(xí)分類器的思路。第一屆是2010年,當(dāng)時(shí)冠軍的準(zhǔn)確率(top 5精度)是71.8%,而2011年是74.3%。由于Hinton經(jīng)常被其它研究人員“嘲諷”說(shuō)深度學(xué)習(xí)在圖像領(lǐng)域沒(méi)有用,于是2012年,Hinton和他的學(xué)生Alex等人參賽,把準(zhǔn)確率一下提高到84.7%。


當(dāng)然,他們的成功借助了ImageNet這個(gè)足夠大的數(shù)據(jù)集,借助了GPU的強(qiáng)大計(jì)算能力,借助了比較深層的CNN網(wǎng)絡(luò),借助了隨機(jī)梯度下降(SGD)和Dropout等優(yōu)化技巧,借助了訓(xùn)練數(shù)據(jù)擴(kuò)充策略(Data Augmentation)。但無(wú)論如何,他們靠著深度學(xué)習(xí)震驚了機(jī)器學(xué)習(xí)領(lǐng)域,從此大量的研究人員開(kāi)始進(jìn)入這個(gè)領(lǐng)域,一發(fā)不可收拾。2013年是89%,2014年是93.4%,截止到現(xiàn)在(2015年5月份),ImageNet數(shù)據(jù)集的精度已經(jīng)達(dá)到了95%以上,某種程度上跟人的分辨能力相當(dāng)了。


不僅僅是圖像分類,在更廣泛的視覺(jué)問(wèn)題上,深度學(xué)習(xí)都產(chǎn)生了重大影響。簡(jiǎn)要列舉幾個(gè)如下:


  • 人臉識(shí)別——LFW數(shù)據(jù)庫(kù)上的結(jié)果,從最早的90%左右的正確率,一路被研究人員刷到了99.5%以上。人臉相關(guān)的應(yīng)用受此影響,也越來(lái)越多。

  • 通用物體檢測(cè)——ImageNet上的檢測(cè)任務(wù)結(jié)果,MAP從最早的0.3左右,一路提高到0.66,感覺(jué)提高空間還有不少。

  • 圖像分割——現(xiàn)在深度學(xué)習(xí)已經(jīng)可以做到輸入是一張圖片,輸出就是逐個(gè)像素分割后的結(jié)果,中間也不需要任何預(yù)處理,并且精度遠(yuǎn)超非深度學(xué)習(xí)的結(jié)果。

  • 光學(xué)字符識(shí)別——這里指一般意義的字符序列識(shí)別。這個(gè)問(wèn)題的傳統(tǒng)做法也是非常復(fù)雜的,需要進(jìn)行字符分割,各種預(yù)處理,然后單個(gè)字符預(yù)測(cè)完成后如何拼成完整輸出等等。深度學(xué)習(xí)的做法也是端到端的,輸入是圖片形式的文字,輸出直接就是識(shí)別結(jié)果了,簡(jiǎn)單、方便還更準(zhǔn)確。所以,現(xiàn)在很多簡(jiǎn)單點(diǎn)的驗(yàn)證碼,想作為圖靈測(cè)試,分辨人還是robot的話,已經(jīng)沒(méi)太大用處了。

  • 玩游戲——DeepMind團(tuán)隊(duì)的杰作。基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning),計(jì)算機(jī)已經(jīng)可以自己學(xué)習(xí)玩一些簡(jiǎn)單游戲了,整個(gè)過(guò)程不需要任何人的干預(yù)。對(duì)于打磚塊這樣的簡(jiǎn)單游戲,甚至已經(jīng)超過(guò)了普通玩家的水平。


簡(jiǎn)單總結(jié)一下視覺(jué)的部分。我們經(jīng)常在媒體上看到深度學(xué)習(xí)在某領(lǐng)域又超過(guò)人的水平了。還有些樂(lè)觀的人說(shuō),深度學(xué)習(xí)可以處理所有人的視覺(jué)在0.1秒內(nèi)可以解決的問(wèn)題。這些或許言過(guò)其實(shí),不過(guò)毫無(wú)疑問(wèn)體現(xiàn)了深度學(xué)習(xí)帶給人們的強(qiáng)烈震撼!


關(guān)于文本理解


除了語(yǔ)音和圖像之外,另一個(gè)機(jī)器學(xué)習(xí)的重要前沿陣地就是文本理解了,深度學(xué)習(xí)的大量研究人員都集中于此。這里簡(jiǎn)單介紹三點(diǎn)。


關(guān)于文本,一個(gè)很重要的工作是詞向量(word2vec)。詞向量是指通過(guò)對(duì)大量文本的學(xué)習(xí)(不需要標(biāo)注),根據(jù)前后文自動(dòng)學(xué)習(xí)到每個(gè)詞的語(yǔ)義,然后把每個(gè)詞映射為一個(gè)緊湊的實(shí)數(shù)向量形式的表達(dá),而且具有很多好的性質(zhì),比如vec(中國(guó))減去vec(北京)約等于vec(英國(guó))減去vec(倫敦)。這里強(qiáng)調(diào)一句,這種向量化的緊湊表達(dá)形式在深度學(xué)習(xí)中是非常重要和普適的。任何抽象的知識(shí)都可以建模成這種緊湊的向量形式。類似的還有很多擴(kuò)展性工作,比如,人們研究如何把一句話映射為一個(gè)向量,甚至把一段文字映射為一個(gè)向量。
文本的各個(gè)詞之間是有順序的,而傳統(tǒng)做法總是采用詞袋模型忽略掉這些順序。為了更好的挖掘和利用這個(gè)性質(zhì),人們漸漸傾向于采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)描述它。RNN也不是什么新鮮事物,其實(shí)就是允許節(jié)點(diǎn)之間的連接有環(huán)的存在。不過(guò)就像我們之前說(shuō)的,大數(shù)據(jù)、GPU、優(yōu)化、深度學(xué)習(xí)在其它領(lǐng)域的突破等等又給它帶來(lái)了新的活力。RNN做文本理解的大概思路是,按順序處理一段話的每個(gè)單詞,在它看到后面內(nèi)容的時(shí)候,它的某些參數(shù)里還保留著對(duì)前面看到過(guò)的信息的“整合和抽象”。沒(méi)錯(cuò),它是有一定的記憶功能的,而且不需要人為告訴它應(yīng)該記住什么,它會(huì)從訓(xùn)練數(shù)據(jù)中自然的進(jìn)行學(xué)習(xí),然后記憶在“環(huán)”里??梢韵胂?,RNN的結(jié)構(gòu)比普通神經(jīng)網(wǎng)絡(luò)復(fù)雜,而且優(yōu)化過(guò)程更加困難,但目前已經(jīng)有了BPTT、LSTM等很多解決方案,在這方面有著很多的相關(guān)工作,總體來(lái)看,結(jié)果讓人覺(jué)得很有希望。
最近產(chǎn)生了深度圖靈機(jī)(DeepTuring Machine)。它簡(jiǎn)單來(lái)說(shuō)就是RNN加上一塊專門用于記憶的部分。這是個(gè)更加一般化的計(jì)算模式,和圖靈機(jī)計(jì)算能力等價(jià)。它的記憶體其實(shí)就是一個(gè)實(shí)數(shù)矩陣。呵呵,我們又一次見(jiàn)到了這種連續(xù)的緊湊向量或者矩陣的表達(dá)形式。它可以記錄信息而且方便梯度傳遞,經(jīng)常被研究人員拿來(lái)各種建模,是構(gòu)建端到端的模型,進(jìn)行統(tǒng)一優(yōu)化的利器。


深度學(xué)習(xí)工具(福利)


說(shuō)了這么多,大家可能還是云里霧里。畢竟各種模型都有很多細(xì)節(jié),而且還有很多的所謂“trick”,甚至深度學(xué)習(xí)也曾經(jīng)因此而戲稱為是一種“藝術(shù)”而不是“科學(xué)”。


所以下面列舉幾個(gè)工具包,并配上一點(diǎn)非常簡(jiǎn)單的說(shuō)明,方便大家進(jìn)行實(shí)戰(zhàn)演練。


  1. 首先你最好要有個(gè)能支持cuda的GPU,否則純CPU是很慢的,尤其是處理圖像的問(wèn)題。

  2. Theano(基于Python), http:///tutorial/系列教材就是基于Theano工具的。它的最大優(yōu)點(diǎn)是支持自動(dòng)符號(hào)求導(dǎo),避免了初學(xué)者很害怕的BP推導(dǎo),有很多擴(kuò)展包,比如keras等,支持各類模型。其實(shí)列舉這一個(gè)就夠了。因?yàn)?,如果仔?xì)的話,你會(huì)在這個(gè)網(wǎng)站看到無(wú)數(shù)的深度學(xué)習(xí)相關(guān)工作鏈接,足夠慢慢擴(kuò)展到深度學(xué)習(xí)的所有前沿研究和工具了。

  3. Torch (https://github.com/torch/torch7/wiki/Cheatsheet),基于lua編程語(yǔ)言(類matlab)。用的人非常多,因此很多常見(jiàn)模塊的實(shí)現(xiàn)都很全面。

  4. DeepLearnToolbox (https://github.com/rasmusbergpalm/DeepLearnToolbox),基于matlab。代碼邏輯清楚,適合跟著代碼學(xué)習(xí)深度學(xué)習(xí)的每個(gè)細(xì)節(jié)。

  5. Caffe (http://caffe./),純c++,科學(xué)研究中很多學(xué)者常用的工具,文檔也很齊全。做物體檢測(cè)相關(guān)任務(wù)的話,非常推薦!

  6. Cuda-convnet2 (https://code.google.com/p/cuda-convnet2/),效率高,支持單機(jī)多卡。ImageNet2012年冠軍Alex的作品!不過(guò)代碼有點(diǎn)抽象難改,而且只支持GPU并且是特定的幾款GPU(也就是說(shuō)是Alex大神是做過(guò)特定GPU優(yōu)化的)。做簡(jiǎn)單的分類、回歸問(wèn)題推薦!不支持RNN。

  7. Cxxnet (https://github.com/dmlc/cxxnet),純c++。優(yōu)點(diǎn):支持多機(jī)多卡訓(xùn)練,適合公司級(jí)的部署。


交個(gè)朋友吧
→ → 本文作者張德兵,格靈深瞳視覺(jué)工程師,博士畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),主攻機(jī)器學(xué)習(xí)方向。在校期間,師從著名的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)專家、浙江大學(xué)何曉飛教授。


深度學(xué)習(xí)不管未來(lái)發(fā)展如何,至少在目前看來(lái)是非常有效的一種機(jī)器學(xué)習(xí)方法。但是,它的不確定性也讓很多人又愛(ài)又恨。


你在使用深度學(xué)習(xí)算法的過(guò)程中有沒(méi)有經(jīng)歷過(guò)讓你頭疼的甚至哭笑不得的時(shí)候呢?

來(lái),留個(gè)言,小編來(lái)陪你聊聊~







    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多