小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

深度學(xué)習(xí)應(yīng)用不再舉步維艱,遷移學(xué)習(xí)成最大功臣

 taotao_2016 2020-02-21


在不久之前,一個數(shù)據(jù)科學(xué)家團(tuán)隊(duì)要想有效地使用深度學(xué)習(xí),需要滿足以下幾個條件:
  • 設(shè)計(jì)一種新穎的模型架構(gòu),并且該架構(gòu)可能需要在模型內(nèi)部設(shè)計(jì)
  • 可使用大型或?qū)S械臄?shù)據(jù)集
  • 用于大型模型訓(xùn)練的硬件或資金
這就給深度學(xué)習(xí)帶來了瓶頸,并將它局限在能夠滿足這些條件的少數(shù)項(xiàng)目中。
然而,在過去幾年間,情況發(fā)生了變化。
在Cortex這一平臺上,有不少用戶發(fā)布了基于深度學(xué)習(xí)的新一代產(chǎn)品,并且與之前不同的是,這些產(chǎn)品并非都是使用獨(dú)一無二的模型架構(gòu)創(chuàng)建的。
這一進(jìn)展背后的最大功臣便是遷移學(xué)習(xí)。

一、遷移學(xué)習(xí)

從廣義上來看,遷移學(xué)習(xí)是一種在為特定任務(wù)而訓(xùn)練的模型中積累知識的思想,比如說,一個模型在識別圖像中的花的任務(wù)中積累的知識,可以遷移到另一個模型上來幫助另一個不同但是相關(guān)的任務(wù)(例如識別某個人的皮膚上的皮膚上的黑素瘤)做預(yù)測。
如果想要深入了解遷移學(xué)習(xí),可參考Sebastian Ruder 曾為遷移學(xué)習(xí)寫過的一篇綜述性的文章:https:///transfer-learning/
做遷移學(xué)習(xí)的方法有很多,而其中微調(diào)的方法尤其被廣泛采用。
在該方法下,研究者采用一個預(yù)訓(xùn)練模型并去除或重新訓(xùn)練模型最后的幾層,來完成一個新的相關(guān)任務(wù)。
AI Dungeon 是一款開放世界的文字冒險游戲,根據(jù) AI 生成的故事有多令人信服向前推進(jìn):

圖源:AI Dungeon
值得一提的是,AI Dungeon 這款游戲并非誕生于谷歌的研究實(shí)驗(yàn)室,而是由一位工程師創(chuàng)建的黑客競技項(xiàng)目。
這位工程師名叫 Nick Walton,不過他并沒有從頭開始為AI Dungeon 設(shè)計(jì)模型,而是采用了當(dāng)前性能最佳的 NLP 模型——OpenAI 的GPT-2,并基于玩家自身選擇的冒險文本來對模型進(jìn)行微調(diào)。
這款A(yù)I 游戲的工作原理是:在神經(jīng)網(wǎng)絡(luò)中,前面的層專注于簡單、一般的特征,而后面的層則更多地聚焦于特定任務(wù)的分類和回歸。
吳恩達(dá)通過設(shè)想一個圖像識別模型,對這些層和它們的相對獨(dú)特度進(jìn)行了可視化處理:
圖源:Stanford
結(jié)果顯示,基礎(chǔ)層的通用知識往往能夠很好地遷移到其他任務(wù)上。在AI Dungeon這一游戲示例中,GPT-2 在理解通用英文上已經(jīng)實(shí)現(xiàn)了最佳性能,僅僅需要對模型后面的層稍微重新訓(xùn)練下,玩家就能夠在自己選擇的冒險題材的文本游戲中獲得出色的表現(xiàn)。
通過這種處理方法,一位工程師在幾天時間內(nèi),就能夠獨(dú)自將實(shí)現(xiàn)了最佳結(jié)果的模型部署到新的領(lǐng)域中。

二、為什么遷移學(xué)習(xí)是下一代 ML 賦能軟件的關(guān)鍵所在

正如作者在開頭提到的,深度學(xué)習(xí)要想得到有效地應(yīng)用,需要具備三個支撐條件:大規(guī)模、干凈的數(shù)據(jù)集、設(shè)計(jì)出高效模型的能力以及模型訓(xùn)練的方法。
這也就意味著在默認(rèn)情況下,在某些領(lǐng)域或沒有某些資源的項(xiàng)目中,深度學(xué)習(xí)很難得到很好的應(yīng)用。
而現(xiàn)在,隨著遷移學(xué)習(xí)的廣泛應(yīng)用,這些瓶頸都不再是瓶頸:
1、小數(shù)據(jù)集不再是“攔路虎” 
深度學(xué)習(xí)通常需要大量的標(biāo)注數(shù)據(jù),然而很多領(lǐng)域目前甚至都還沒有這類標(biāo)注數(shù)據(jù)。遷移學(xué)習(xí)則能夠解決這一問題。
例如,哈佛醫(yī)學(xué)院麾下的一個研究團(tuán)隊(duì)最近就部署了一個能夠“能夠根據(jù)胸片預(yù)測包括非癌癥死亡在內(nèi)的死亡率”的模型:
圖源:JAMA Network
有了超過 50000張標(biāo)注圖片的數(shù)據(jù)集后,他們并沒有使用這些數(shù)據(jù)從頭開始訓(xùn)練 CNN(卷積神經(jīng)網(wǎng)絡(luò)),而是采用了經(jīng)過預(yù)訓(xùn)練的Inception-v4 模型(在有 1400萬張ImageNet 數(shù)據(jù)集上訓(xùn)練),并且使用遷移學(xué)習(xí)和輕微的架構(gòu)調(diào)整方法來使其模型適應(yīng)新的數(shù)據(jù)集。 
最終,他們訓(xùn)練的CNN 模型僅僅使用了每個病人的一張胸部圖像,就能夠生成與病人的實(shí)際死亡率對應(yīng)相關(guān)的風(fēng)險評分,應(yīng)用得非常成功。 
2、模型可以在幾分鐘訓(xùn)練完,而不需要數(shù)天
在海量數(shù)據(jù)上訓(xùn)練模型,不僅面臨需要獲得大規(guī)模數(shù)據(jù)集的問題,還面臨著資源和時間消耗這一問題。
例如,谷歌在開發(fā)最前最先進(jìn)的圖像分類模型Xception時,訓(xùn)練了兩個版本:一個是在ImageNet數(shù)據(jù)集(有 1400萬張圖像)上訓(xùn)練,另一個在JFT 數(shù)據(jù)集(有3.5億張圖像)上訓(xùn)練。
采用各種優(yōu)化器在60 個NVIDIA 的K80 GPU上訓(xùn)練,前一個版本花了3天時間,而后一個版本則花了一個多月的時間。 
而使用其發(fā)布的預(yù)訓(xùn)練 Xception模型。谷歌研究團(tuán)隊(duì)能夠更快地對上述兩個版本的模型進(jìn)行微調(diào)。 
另外一個案例是,伊利諾伊大學(xué)和美國阿貢國家實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì)最近訓(xùn)練了一個模型,來將星系的圖像分類為螺旋狀還是橢圓狀:
圖源:阿貢實(shí)驗(yàn)室
雖然只有一個擁有 35000 張標(biāo)注圖片的數(shù)據(jù)集,他們使用NVIDIA的 GPU,在僅僅8分鐘內(nèi)就完成了對Xception模型的微調(diào)。
最終的模型能夠9.8%的正確率對星系進(jìn)行分類,并且還在速度上超越了人類,每分鐘能分類20000多個星系。 
3、 訓(xùn)練模型不再需要承擔(dān)投資風(fēng)險
谷歌可能并不是很在乎他們每次都用 60 塊 GPU 數(shù)月地訓(xùn)練Xception 模型所需要花費(fèi)的成本。然而,其他的多數(shù)團(tuán)隊(duì)并不具有像谷歌一樣的財力支持,模型訓(xùn)練的成本是一個非常實(shí)際的問題。
例如, OpenAI在首次公開GPT-2的結(jié)果時,一同發(fā)布了模型架構(gòu),但是由于擔(dān)心被誤用而沒有發(fā)布完整的預(yù)訓(xùn)練模型。
隨后,布朗大學(xué)的一個研究團(tuán)隊(duì)根據(jù)模型架構(gòu)和論文中描述的訓(xùn)練步驟復(fù)現(xiàn)了 GPT-2,他們將這一模型稱之為 OpenGPT-2。整個訓(xùn)練花費(fèi)了超過 50000美元,然而表現(xiàn)卻遠(yuǎn)不如 GPT-2。
花了50000美元來訓(xùn)練模型,結(jié)果性能卻低于當(dāng)前的最佳性能,對于在沒有大量資金支持下開發(fā)應(yīng)用型生產(chǎn)軟件的團(tuán)隊(duì)而言,都是一個巨大的風(fēng)險。
而值得慶幸的是,遷移學(xué)習(xí)能夠極大地降低這種成本。
例如Nick Walton 就采用對GPT-2進(jìn)行微調(diào)的方法開發(fā)出了 AI Dungeon。OpenAI 已經(jīng)投入了大約 27118520 頁文本和數(shù)千美元來訓(xùn)練GPT-2模型,所以 Walton 不需要重新創(chuàng)建。
相反地,他使用了從 chooseyourstory.com 上截取的一組小得多的文本,并在完全免費(fèi)的 Google Colab 中對模型進(jìn)行了微調(diào)。

三、機(jī)器學(xué)習(xí)工程正在變成一個真正的生態(tài)系統(tǒng)

如果將軟件工程視作一個并行的操作,我們往往會看到這一生態(tài)系統(tǒng)正在以相當(dāng)標(biāo)準(zhǔn)的模式「成熟」。
一種新的編程語言誕生往往伴隨著一些令人興奮的特性,人們將把它應(yīng)用于特定的用例、研究項(xiàng)目和游戲。在這一階段,任何使用它的人都必須從頭開始構(gòu)建所有基本的實(shí)用程序。
接著,再由社區(qū)中的研究者開發(fā)能夠抽象出公共實(shí)用程序的庫和項(xiàng)目,直到這些工具足夠穩(wěn)定地用于生產(chǎn)。
在該階段,使用它來開發(fā)軟件的工程師并不在意發(fā)送 HTTP 請求到數(shù)據(jù)庫或者與數(shù)據(jù)庫連接,畢竟所有這些都是抽象出來的。而工程師們基本上只聚焦于構(gòu)建他們的產(chǎn)品。
換句話說,F(xiàn)acebook 開發(fā) React,谷歌開發(fā) Angular,而工程師則使用它們來開發(fā)產(chǎn)品。隨著遷移學(xué)習(xí)的發(fā)展,機(jī)器學(xué)習(xí)工程也正邁著這樣的步伐向前發(fā)展。
隨著 OpenAI、谷歌、Facebook 等科技巨頭先后發(fā)布強(qiáng)大的開源模型,機(jī)器學(xué)習(xí)工程師的「工具」也變得越來越強(qiáng)大和穩(wěn)定。
機(jī)器學(xué)習(xí)工程師們不再需要把時間花在使用 PyTorch 或 TensorFlow 從頭開始創(chuàng)建模型,而是使用開源模型和遷移學(xué)習(xí)來開發(fā)產(chǎn)品,這意味著全新一代的機(jī)器學(xué)習(xí)賦能的軟件即將到來。
而現(xiàn)在,機(jī)器學(xué)習(xí)工程師只需要關(guān)心:如何將這些模型投入生產(chǎn)。
via:  https:///deep-learning-isnt-hard-anymore-26db0d4749d7?gi=f918c0f5f26f

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多