小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

深度學習發(fā)展簡要筆記

 快讀書館 2017-12-17

來源:非正式組織

概要:在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨頭nature深度學習綜述《deep learning》文章中提到,這段期間神經(jīng)網(wǎng)絡(luò)模型被主流的計算機視覺和學術(shù)界所拋棄。


一、前言


深度學習的發(fā)展大致分為這么幾個學期:


  • 萌芽期:從BP算法的發(fā)明(1970s-1980s)到2006年期間。


  • 迅速發(fā)展期:從2006年棧式自編碼器+BP微調(diào)提出之后。


  • 爆發(fā)期:從2012年Hintont團隊的Alexnet模型在ImageNet競賽取得驚人成績之后。


萌芽期


在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨頭nature深度學習綜述《deep learning》文章中提到,這段期間神經(jīng)網(wǎng)絡(luò)模型被主流的計算機視覺和學術(shù)界所拋棄。


這期間,學者們試圖用有監(jiān)督學習的方式訓練深度神經(jīng)網(wǎng)絡(luò),然而方法不是十分奏效,陷入了困境,在Andrew的教程中可以找到大概這幾點原因:數(shù)據(jù)獲取


  • 數(shù)據(jù)獲取問題。有監(jiān)督訓練依賴于有標簽的數(shù)據(jù)才能進行訓練。然而有標簽的數(shù)據(jù)通常是稀疏的,因此對于許多問題,很難獲得足夠多的樣本來擬合一個復雜模型的參數(shù)。例如,考慮到深度網(wǎng)絡(luò)具有強大的表達能力,在不充足的數(shù)據(jù)上進行訓練將會導致過擬合。


  • 局部極值問題。使用監(jiān)督學習方法來對淺層網(wǎng)絡(luò)(只有一個隱藏層或者沒有隱藏層)進行訓練通常能夠使得參數(shù)收斂到合理的范圍內(nèi)。但是當用這種方法來訓練深度網(wǎng)絡(luò)的時候,并不能取得很好的效果。特別的,使用監(jiān)督學習方法訓練神經(jīng)網(wǎng)絡(luò)的時候,通常會涉及到求解一個高度非凸的優(yōu)化問題。對深度網(wǎng)絡(luò)而言,這種非凸優(yōu)化問題的搜索區(qū)域中充斥著大量“壞”的局部極值,因而使用梯度下降法(或者像共軛梯度下降法,L-BFGS等方法)效果并不好。


  • 梯度彌散問題(或者梯度消失)。梯度下降法在使用隨機初始化權(quán)重的深度網(wǎng)絡(luò)上效果不好的技術(shù)原因是:梯度會變得非常小。具體而言,當使用反向傳播方法計算導數(shù)的時候,隨著網(wǎng)絡(luò)的深度的增加,反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度值會急劇的減小,結(jié)果就造成了整體的損失函數(shù)相對于最初幾層的權(quán)重的導數(shù)特別小。這樣,當使用梯度下降法的時候,最初幾層的權(quán)重變化非常緩慢,以至于他們不能夠從樣本中進行有效的學習。這種問題通常被稱為“梯度的彌散”或者梯度消失。


因為一直沒有找到有效的解決這些問題的方法,這期間,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展一直不溫不火?;蛘哒f在2001年Hochreiter的Gradient flow in recurrent nets: the difficulty of learning long-term dependencies(好像是這篇)提出了神經(jīng)網(wǎng)絡(luò)存在的幾個問題后,在接下來的幾年內(nèi)神經(jīng)網(wǎng)絡(luò)的發(fā)展陷入了低谷。而那幾年流行的機器學習算法是SVM和集成模型(隨機森林、adaboost等)。


迅速發(fā)展期


2006年hinton在nature上發(fā)表了一篇文章Reducing the dimensionality of data with neural networks,針對上面提到的三個深度學習的問題,提出了棧式自編碼器+BP微調(diào)的解決方案。在一定程度上解決了上面的三個問題。


  • 棧式自編碼神經(jīng)網(wǎng)絡(luò)是無監(jiān)督學習算法。因而不需要規(guī)模很大的有標簽樣本。


  • 經(jīng)過自編碼神經(jīng)網(wǎng)絡(luò)訓練后的參數(shù)已經(jīng)落在一個較優(yōu)的位置上,從這個位置開始BP微調(diào),不用擔心局部極值問題。


  • 自編碼神經(jīng)網(wǎng)絡(luò)訓練已經(jīng)使得深度網(wǎng)絡(luò)的前幾層具有表達能力了,比如可以提取出圖片的邊,局部組建等等,即使有梯度彌散問題,前幾層參數(shù)不再更新,也不會影響最終深度網(wǎng)絡(luò)的表達能力。


從此,深度學習開啟嶄新的浪潮。


爆發(fā)期


在12年的ILSVRC競賽中,Hinton團隊的Alexnet模型Imagenet classification with deep convolutional neural networks將1000類分類的top-5誤差率降低到了15.3%,碾壓了第二名使用SVM算法的26.2%,開啟了深度學習的革命,從此之后,深度學習走上了指數(shù)式的發(fā)展道路。


回到Hilton團隊的Alexnet模型上,僅僅使用了有監(jiān)督的訓練,貌似沒涉及無監(jiān)督的預訓練。不是在之前說有監(jiān)督的深度學習訓練存在很多問題嗎,大概是因為這幾條原因,導致了有監(jiān)督訓練的可行:


  • 大規(guī)模標注數(shù)據(jù)的出現(xiàn)。在ILSVRC使用的數(shù)據(jù)集包括120萬的訓練圖片,5萬張驗證圖片和15萬張測試圖片。這些圖片都是有標注的(屬于1000類),而在imagenet出現(xiàn)之前,這樣規(guī)模的標注數(shù)據(jù)是不存在的。


  • 對于局部極值的問題,nature綜述中,三個大牛作者的說法是:對于深度網(wǎng)絡(luò)來說,局部極值從來都不是一個問題,從任意的初始參數(shù)值開始訓練網(wǎng)絡(luò),最后都能達到相似的分類效果。這也是被最近的理論和實踐所證明的。


  • 對于梯度彌散導致的收斂速度慢的問題,Alexnet模型的兩大利器:ReLu激活函數(shù)和GPU并行加速,前者使SGD有6倍的加速,后者使用兩塊CTX580GPU也極大的加快了SGD的收斂速度,兩者的效果相乘,使得無監(jiān)督預訓練幾乎是多余的了,梯度彌散問題也不再是一個很大問題。


總結(jié)


對于06-12年期間的深度神經(jīng)網(wǎng)絡(luò)主要以無監(jiān)督預訓練為主流,從12年以后,這時數(shù)據(jù)庫足夠大(上萬級別),模型足夠先進(ReLU激活函數(shù),dropout等等),同時計算速度足夠快(GPU)加速,使得無監(jiān)督預訓練(自編碼神經(jīng)網(wǎng)絡(luò))在很多應(yīng)用場景中失去了存在的價值,有監(jiān)督訓練已經(jīng)足夠完成任務(wù)。


一句話總結(jié),06年的無監(jiān)督預訓練開啟了深度學習的紀元,在之后深度學習快速發(fā)展的過程中,大數(shù)據(jù)的獲取、計算機硬件的發(fā)展以及深度模型的升級使得有監(jiān)督訓練重新走上舞臺,無監(jiān)督訓練也算是完成了歷史使命。


那么預訓練還有用嗎?答案是肯定的,比如我們有一個分類任務(wù),數(shù)據(jù)庫很小,這時還是需要通過預訓練來避免過擬合的問題,只不過預訓練是通過在一個大的數(shù)據(jù)庫上,通過有監(jiān)督來完成的,這種有監(jiān)督預訓加小的數(shù)據(jù)庫上的微調(diào)的模型稱為Transfer learning。


未來智能實驗室致力于研究互聯(lián)網(wǎng)與人工智能未來發(fā)展趨勢,觀察評估人工智能發(fā)展水平,由互聯(lián)網(wǎng)進化論作者,計算機博士劉鋒與中國科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心石勇、劉穎教授創(chuàng)建。


未來智能實驗室的主要工作包括:建立AI智能系統(tǒng)智商評測體系,開展世界人工智能智商評測;開展互聯(lián)網(wǎng)(城市)云腦研究計劃,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多