小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

麻省理工學(xué)院韓松團(tuán)隊(duì)新突破:比傳統(tǒng)方法快240倍,讓神經(jīng)網(wǎng)絡(luò)變'輕'、跑更快

 西北望msm66g9f 2019-03-31

麻省理工學(xué)院(MIT)電子工程和計(jì)算機(jī)科學(xué)系助理教授韓松與團(tuán)隊(duì)人員蔡涵和朱力耕設(shè)計(jì)出的 NAS 算法—ProxylessNAS,可以直接針對(duì)目標(biāo)硬件平臺(tái)訓(xùn)練專用的卷積神經(jīng)網(wǎng)絡(luò)(CNN),而且在 1000 類 ImageNet 大規(guī)模圖像數(shù)據(jù)集上直接搜索,僅需 200 個(gè) GPU 小時(shí),如此便能讓 NAS 算法能夠更廣泛的被運(yùn)用。該論文將在 5 月舉辦的 ICLR(International Conference on Learning Representations)大會(huì)上發(fā)表。

 

(來(lái)源:Han Lab)

AutoML 是用以模型選擇、或是超參數(shù)優(yōu)化的自動(dòng)化方法,而 NAS 屬于 AutoML 概念下的一個(gè)領(lǐng)域,簡(jiǎn)單來(lái)說(shuō),就是用“神經(jīng)網(wǎng)絡(luò)來(lái)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)”,一來(lái)好處是可以加速模型開(kāi)發(fā)的進(jìn)度,再者,NAS 開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)可望比人類工程師設(shè)計(jì)的系統(tǒng)更加準(zhǔn)確和高效,因此 AutoML 和 NAS 是達(dá)成 AI 普及化遠(yuǎn)景的重要方法之一。

DeepTech 采訪了韓松,他表示,AutoML 是個(gè)很有前景的方向,架構(gòu)搜索只是 AutoML 的一部分,它能自動(dòng)化地找到一些過(guò)去人類探索不到的結(jié)構(gòu),反過(guò)來(lái)幫助人們?cè)O(shè)計(jì)高效的模型。然而,過(guò)去 NAS 算法的硬件效率有待提高:搜索過(guò)程需要很久的時(shí)間、而且搜出的模型的推理速度難以保證。NAS 和硬件結(jié)合,能帶來(lái)很多新的設(shè)計(jì)策略。

圖|ProxylessNAS 為硬件定制專屬的高效神經(jīng)網(wǎng)絡(luò)架構(gòu),不同硬件適合不同的模型。(來(lái)源: https:///pdf/1812.00332.pdf)

大幅減少計(jì)算成本

舉例來(lái)說(shuō),谷歌所開(kāi)發(fā)的 NAS 算法,需要運(yùn)行在 GPU 上 4.8 萬(wàn)個(gè)小時(shí),才能生成一個(gè)用來(lái)做圖像分類或檢測(cè)任務(wù)的 CNN。當(dāng)然,谷歌擁有龐大的 GPU 數(shù)量和其他專用硬件的資源,這對(duì)許多其他人來(lái)說(shuō)是遙不可及的方法。而這就是 MIT 研究人員希望解決 NAS 計(jì)算昂貴的問(wèn)題。他們提出的 ProxylessNAS 算法,僅需 200 個(gè) GPU 小時(shí),就可以在 1000 類 ImageNet 的大規(guī)模圖像數(shù)據(jù)集上直接進(jìn)行搜索,換算下來(lái),比谷歌的 48,000 GPU 小時(shí),快了 240 倍。而且,ProxylessNAS 可以針對(duì)特定的目標(biāo)硬件平臺(tái)上定制專屬的深度學(xué)習(xí)模型,使其不僅準(zhǔn)而且運(yùn)行速度快。

“主要目標(biāo)是實(shí)現(xiàn)人工智能在各種硬件平臺(tái)上的普及,在特定硬件上提供“一鍵加速”的解決方案,幫助 AI 專家和非 AI 專家、硬件專家和非硬件專家有效率地設(shè)計(jì)又準(zhǔn)又快的神經(jīng)網(wǎng)絡(luò)架構(gòu),”韓松說(shuō)。同時(shí),他也強(qiáng)調(diào),NAS 算法永遠(yuǎn)不會(huì)取代人類工程師,“目的是減輕設(shè)計(jì)和改進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu)所帶來(lái)的重復(fù)性和繁瑣的工作”。

圖|MIT 電子工程和計(jì)算機(jī)科學(xué)系助理教授韓松(來(lái)源:https://songhan./)

路徑級(jí)二值化和修剪

在該研究中,他們的做法是刪除非必要性的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)組件,借此縮短計(jì)算時(shí)間、減少和內(nèi)存開(kāi)銷來(lái)運(yùn)行 NAS 算法。另一項(xiàng)創(chuàng)新則是讓每個(gè)輸出的 CNN 在特定硬件平臺(tái)上(CPU、GPU 和移動(dòng)設(shè)備)的運(yùn)行效率比使用傳統(tǒng)方法所設(shè)計(jì)的模型來(lái)得快速。在測(cè)試中,研究人員的 CNN 在手機(jī)上的測(cè)量速度,比相似精度的 MobileNet-V2 快了 1.8 倍。

圖|硬件平臺(tái)上架構(gòu)搜索過(guò)程 Demo (來(lái)源:韓松團(tuán)隊(duì))

CNN 能連接不同層(layer)的人工神經(jīng)網(wǎng)路,受到大腦處理影像的視覺(jué)皮質(zhì)(visual cortex)組織啟發(fā),適合處理視覺(jué)方面的任務(wù),是計(jì)算機(jī)視覺(jué)領(lǐng)域十分流行的架構(gòu)。一個(gè) CNN 架構(gòu)是由多個(gè)可調(diào)整參數(shù)的計(jì)算層(稱為“過(guò)濾器”),以及這些過(guò)濾器之間可能的連接所組成。

這種連接方式多種多樣,由于可以選擇的架構(gòu)數(shù)量(稱為“搜索空間”search space)非常龐大,所以想應(yīng)用 NAS 在海量圖像數(shù)據(jù)集上創(chuàng)建一個(gè)神經(jīng)網(wǎng)絡(luò),計(jì)算量總是個(gè)很大的問(wèn)題,所以工程師通常在較小的代理數(shù)據(jù)集上運(yùn)行 NAS,再把將訓(xùn)練好的 CNN 遷移到目標(biāo)任務(wù)上,但是,這種方法降低模型的準(zhǔn)確性,此外,把一樣的模型架構(gòu)套用在所有的硬件平臺(tái),也難以發(fā)揮各種硬件的最佳效率。

研究人員直接在 ImageNet 大型數(shù)據(jù)集上訓(xùn)練和測(cè)試他們開(kāi)發(fā)的新 NAS 算法,首先,他們創(chuàng)建一個(gè)搜索空間,包含了所有可能的 CNN“路徑”(路徑是指層和過(guò)濾器如何連接來(lái)處理數(shù)據(jù)),讓 NAS 算法可以自由尋找出一個(gè)最佳架構(gòu)。

這種方法通常把所有可能的路徑存儲(chǔ)在內(nèi)存中,如果用傳統(tǒng)的架構(gòu)搜索辦法直接在千類 ImageNet 搜索,就會(huì)超過(guò) GPU 內(nèi)存的限制。為了解決此問(wèn)題,研究人員利用了一種稱為“路徑級(jí)二值化”(path-level binarization)的技術(shù),一次只在內(nèi)存中存放一個(gè)采樣路徑,大幅節(jié)省內(nèi)存的消耗。

接著,他們將這種二值化與“路徑級(jí)修剪”(path-level pruning)結(jié)合,通常該技術(shù)是用來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中有哪些神經(jīng)元(neuron)可以被刪除,而且不會(huì)影響輸出。不過(guò),研究人員 NAS 算法是采用修剪整個(gè)路徑以取代丟掉神經(jīng)元,如此能夠完全改變神經(jīng)網(wǎng)絡(luò)的架構(gòu)。

在訓(xùn)練過(guò)程中,所有路徑最初都被給予相同的選擇概率,然后,該算法跟蹤這些路徑,并記下輸出的準(zhǔn)確性和損失,進(jìn)而調(diào)整路徑的概率,借此優(yōu)化準(zhǔn)確性和效率。最后,該算法修剪掉所有低概率的路徑,僅保留最高概率的路徑,形成最終版的 CNN 架構(gòu)。

圖|MIT News 報(bào)道韓松團(tuán)隊(duì)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法(來(lái)源:MIT News)

為硬件定制網(wǎng)絡(luò)結(jié)構(gòu)

另一項(xiàng)重要?jiǎng)?chuàng)新就是使 NAS 算法“hardware-aware”,也就是說(shuō),它會(huì)為一個(gè)硬件平臺(tái)量身定制專用的網(wǎng)絡(luò)結(jié)構(gòu),使得推理的延遲更低。

韓松解釋,hardware-aware 是指 NAS 搜出來(lái)的模型不僅準(zhǔn)確率高,而且在硬件實(shí)測(cè)的速度也要快,使得搜出來(lái)的模型容易落地。然而,為了量測(cè)移動(dòng)設(shè)備的模型推理延遲,大公司的作法是利用大量的手機(jī)來(lái)實(shí)測(cè),成本很高;而 ProxylessNAS 則是給延遲建模,這樣可以讓延遲可導(dǎo)(make latency differentiable),便于對(duì)延遲進(jìn)行端到端的優(yōu)化,而且只要使用一臺(tái)手機(jī),成本低、精度誤差小于 1 毫秒。

對(duì)于網(wǎng)絡(luò)中的每個(gè)所選層,算法利用上述的延遲預(yù)測(cè)模型來(lái)采樣,然后使用這些信息設(shè)計(jì)出一個(gè)快速運(yùn)行的架構(gòu),同時(shí)實(shí)現(xiàn)高精度。在實(shí)驗(yàn)中,研究人員的 CNN 在移動(dòng)設(shè)備上的運(yùn)行速度幾乎是現(xiàn)有 MobileNet-V2 模型的 2 倍。

韓松也提到一個(gè)有趣的結(jié)果,有些卷積核結(jié)構(gòu)曾被誤以為效率太低,但在研究人員的測(cè)試中,這些架構(gòu)在某些硬件上是高效的。

他指出,比如 7x7 這樣的大 卷積核最近幾年被比較少被人使用,因?yàn)?3 個(gè) 3x3 卷積核和 1 個(gè) 7x7 卷積核有同樣的感受野(receptive field),而 3 個(gè) 3x3 卷積核有 27 個(gè)權(quán)重,1 個(gè) 7x7 卷積核有 49 個(gè)權(quán)重,仿佛 7x7 不如 3 個(gè) 3x3 能讓模型更小。

但實(shí)際在 GPU 上 invoke kernel call 的代價(jià)很高,執(zhí)行多個(gè)小型過(guò)濾器不如執(zhí)行單個(gè)大型過(guò)濾器效率高,大的 kernel call 更適合 GPU 這樣并行度高的硬件?!八栽?GPU 上,ProxylessNAS 在較深的層自動(dòng)選取了大量 7x7 的卷積核,這是很有意思的,”他說(shuō)。

GPU 的并行運(yùn)算特性能夠同時(shí)進(jìn)行多個(gè)計(jì)算,因此,執(zhí)行單個(gè)大型過(guò)濾器時(shí),反而比處理多個(gè)小型過(guò)濾器更高效。“這打破了過(guò)去的想法”,“搜索空間越大,可以找到的內(nèi)容就越多。你不知道某個(gè)東西是否會(huì)比過(guò)去人類經(jīng)歷表現(xiàn)得更好,那就讓 AI 來(lái)探索,”韓松說(shuō)。

他進(jìn)一步指出,類似例子在量化中也有體現(xiàn),如他們最近的工作 HAQ: Hardware-aware Automated Quantization (CVPR 19 oral paper) 發(fā)現(xiàn),不同硬件,如邊緣設(shè)備(edge device)和云端設(shè)備(cloud device),對(duì)量化策略的偏好是不同的。不同層在不同硬件上所需的比特?cái)?shù)也不一樣,有些層是計(jì)算受限,有些層是內(nèi)存受限;在這樣大的設(shè)計(jì)空間,人類給每種網(wǎng)絡(luò)、每種硬件訂制專屬的量化策略費(fèi)時(shí)費(fèi)力,基于學(xué)習(xí)的策略可以做得更好。

他認(rèn)為,這也說(shuō)明研究 specialization 和 domain-specific hardware architecture 的重要性。最近越來(lái)越多好的深度學(xué)習(xí)工作都是算力推動(dòng)的,比如用于自然語(yǔ)言預(yù)訓(xùn)練的 Bert。很多場(chǎng)景落地也需要低功耗的硬件支持,比如端上智能和 AIoT。所以未來(lái)算法和算力的協(xié)同研究是值得關(guān)注的方向。

幫助人類減輕做瑣事或工作的負(fù)擔(dān),一直是大家對(duì) AI 的期望。這也就是為什么 AutoML 和 NAS 受到重視的原因之一,所以如果要讓 NAS 普及,除了克服上述的計(jì)算成本高之外,還有哪些需要一步改善的問(wèn)題?面對(duì)這個(gè)提問(wèn),韓松給了兩個(gè)很明確的方向,一是設(shè)計(jì)空間(design space)的設(shè)計(jì),目前的 NAS 性能好壞很大程度依賴設(shè)計(jì)空間的選取,這部分還有很多人為的經(jīng)驗(yàn)。二是對(duì)速度和資源的優(yōu)化,為了讓 NAS 更容易在工業(yè)界落地,有兩個(gè)條件:搜索的過(guò)程占用的計(jì)算資源要低,搜索出的模型硬件效率要高——最終實(shí)現(xiàn)讓硬件效率和算法性能同步提升。

-End-

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多