小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器學(xué)習(xí)是煉金術(shù)?

 金麟167 2017-12-17


id:QbitAI

誰能想到,NIPS這種頂會(huì)都能風(fēng)波乍起。

Ali Rahimi(阿里·拉希米),因?yàn)?007年發(fā)表的一篇論文,獲得今年的“Test of Time”最具時(shí)間價(jià)值大獎(jiǎng)。當(dāng)然,阿里作為最佳論文作者理所應(yīng)當(dāng)?shù)牡桥_(tái)演講。

起初,這個(gè)演講主要介紹之前的研究成果。阿里說從很多方面來講,我們的狀況都比10年前好多了。在技術(shù)上,取得了很大的進(jìn)步,街上跑著自動(dòng)駕駛汽車,人工智能可以干很多事情……基于機(jī)器學(xué)習(xí)技術(shù),能產(chǎn)生出幾十億美元的公司。

后來,火藥味逐漸濃烈起來,阿里朝著整個(gè)深度學(xué)習(xí)界開了一槍,他說:

但某些方面更糟糕了。

空氣中飄蕩著一種自鳴得意的感覺,我們會(huì)說“人工智能是新的電力”。(安德魯老師最愛的說法)

我想換個(gè)比方:機(jī)器學(xué)習(xí)已經(jīng)成了煉金術(shù)。

煉金術(shù)挺好的,煉金術(shù)沒毛病,它自有它的地位,煉金術(shù)“管用”。


煉金術(shù)帶來了冶金、紡織、現(xiàn)代玻璃制造工藝、醫(yī)療等等領(lǐng)域的發(fā)明。但同時(shí),煉金術(shù)還相信水蛭能治病,廉價(jià)金屬能變成金子。

從當(dāng)年的煉金術(shù)到現(xiàn)在的物理、化學(xué),到我們現(xiàn)在對(duì)宇宙的認(rèn)識(shí),科學(xué)家們要消解掉2000年的煉金術(shù)理論。

如果你要做個(gè)照片分享系統(tǒng),用“煉金術(shù)”就行。但我們現(xiàn)在所做的遠(yuǎn)遠(yuǎn)超出了這個(gè)范圍,我們所做的系統(tǒng)用在醫(yī)療領(lǐng)域,用在社交媒體上,甚至能影響大選。

我希望我所生活的世界里,這些系統(tǒng)都建立在嚴(yán)格、周密、可驗(yàn)證的知識(shí)之上,而不是基于“煉金術(shù)”。

我有點(diǎn)懷念十年前NIPS上質(zhì)疑各種想法夠不夠嚴(yán)謹(jǐn)?shù)摹皩W(xué)術(shù)警察”,希望他們回來。

(不關(guān)心技術(shù)細(xì)節(jié)的可以跳過下面的例子)

舉個(gè)例子,不知道你有沒有經(jīng)歷過這樣的情況:從零開始搭建、訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),然后發(fā)現(xiàn)它不管用的時(shí)候,總覺得是自己的錯(cuò)。這種狀況我大約每三個(gè)月就要經(jīng)歷一次,我想說,這不是你的錯(cuò),是梯度下降的錯(cuò)。

比如說這個(gè)最簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò),兩層線性網(wǎng)絡(luò):

左邊是我的模型,右邊是損失函數(shù),底下是不同參數(shù)設(shè)置下梯度下降的過程。有時(shí)候loss一開始下降得很快,后來就不動(dòng)了。你可能會(huì)覺得遇到了局部最小值,或者鞍點(diǎn),loss和0相差還很遠(yuǎn)。

換一個(gè)下降的方向,很快就能優(yōu)化到最低。

你可能會(huì)覺得這個(gè)例子不自然,或者說梯度下降在更大的神經(jīng)網(wǎng)絡(luò)上表現(xiàn)得不錯(cuò),我的回答是:第一,很多人都被梯度下降坑過;第二,我們把自己的工具用在簡(jiǎn)單的例子上,從中學(xué)習(xí)知識(shí),然后應(yīng)用到更復(fù)雜的場(chǎng)景,這正符合我們建立知識(shí)的方式。

梯度下降帶來的痛苦是真實(shí)存在的。

上個(gè)月,我的朋友Boris給我發(fā)了封郵件:

周五,另一個(gè)組有人改動(dòng)了TensorFlow內(nèi)部的默認(rèn)舍入模式,從“舍到0”改成了“四舍五入到偶數(shù)”。

我們的訓(xùn)練就崩潰了,誤差從<25%飆升到了~99.97%。

這樣的郵件我收到過不少,網(wǎng)上也有人在討論類似的問題。

會(huì)發(fā)生這種情況,是因?yàn)槲覀儼汛嗳醯膬?yōu)化技巧用到了我們不理解的loss上, 我們的解決方案在本來就已經(jīng)很神秘的技術(shù)上增加了更多神秘性。

Batchnorm是加速梯度下降的一種方法,把Batchnorm插入到深度神經(jīng)網(wǎng)絡(luò)的層中,梯度下降的速度就會(huì)更快。

我不排斥使用一些自己不懂的技術(shù),比如說我是坐飛機(jī)來的,并不完全清楚它的工作原理,但知道有整個(gè)航空界都在研究這項(xiàng)技術(shù)就很安心了。

而對(duì)于Batchnorm的工作原理,我們只知道它的功能是“reducing internal covariate shift”。

可是為什么這樣就能加速梯度下降了?有沒有相關(guān)的理論或者實(shí)驗(yàn)?你甚至都不清楚internal covariate shift是什么,就不想要一個(gè)定義嗎?

Batchnorm已經(jīng)成了構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的一個(gè)基礎(chǔ)工具,但我們對(duì)它幾乎一無所知。

想想過去一年里你為了刷競(jìng)賽榜單而做的實(shí)驗(yàn)、嘗試的新技術(shù);再想想過去一年里你為了解釋奇怪現(xiàn)象、尋找其根源而做的努力。前者,我們做得很多,后者,我們應(yīng)該再多做一些。簡(jiǎn)單的實(shí)驗(yàn)和理論是幫我們理解復(fù)雜系統(tǒng)的基礎(chǔ)。

我們還有一件事可以做?,F(xiàn)在,所有商用硬件上運(yùn)行的成熟計(jì)算引擎都是梯度下降的變體,處理著數(shù)百億的變量。

想象一下,如果我們有能在標(biāo)準(zhǔn)商用硬件上運(yùn)行,處理數(shù)百億變量線性解算器或者矩陣分解引擎,想象一下這樣我們能做出多好的優(yōu)化算法,用多好的模型來做實(shí)驗(yàn),當(dāng)然,這在數(shù)學(xué)上和系統(tǒng)上都很難,但這正是我們要解決的問題。

我對(duì)這個(gè)圈子有真摯的愛,這也是為什么我會(huì)站在這兒,號(hào)召大家更嚴(yán)格精確,別那么像煉金術(shù)師。

希望我們可以共同努力,將機(jī)器學(xué)習(xí)從“煉金術(shù)”變成“電力”。

完整演講,參見下面這段視頻:


LeCun:實(shí)名反對(duì)

一石激起千層浪,阿里的演講引發(fā)了熱烈的討論。

深度學(xué)習(xí)專家、前谷歌大腦成員Denny Britz說:“對(duì)很多人來說,這是NIPS的高光時(shí)刻。深度學(xué)習(xí)就像煉金術(shù),我們不知道發(fā)生了什么。我們需要在這個(gè)領(lǐng)域更加嚴(yán)謹(jǐn)。如果你知道背后沒有可靠的科學(xué)理論,你會(huì)坐上飛機(jī)么?”

當(dāng)然也有人立刻拋出不同意見。比如號(hào)稱“三巨頭”之一的Yann LeCun。他在Facebook上發(fā)表了一篇“長(zhǎng)篇大論”進(jìn)行了闡釋。

原文概要如下:

阿里發(fā)表了一個(gè)有趣的演講,但我壓根不同意他說的話。他的核心思想是說:機(jī)器學(xué)習(xí)(ML)現(xiàn)在的實(shí)踐,類似于“煉金術(shù)”(他的原話)。

這是種侮辱,是的。但是不要擔(dān)心:他是錯(cuò)的。

阿里抱怨目前ML使用的許多方法,缺乏(理論上)的理解,尤其是在深度學(xué)習(xí)領(lǐng)域。理解是好事,這也是NIPS群體中很多人追求的目標(biāo)。

但另一個(gè)更重要的目標(biāo)是發(fā)明新的方法、新的技術(shù),以及新的技巧(tricks)。

翻看科學(xué)技術(shù)發(fā)展的歷史,工程實(shí)踐總是先于理論理解出現(xiàn):透鏡和望遠(yuǎn)鏡先于光學(xué)理論,蒸汽機(jī)先于熱動(dòng)力學(xué),飛機(jī)先于空氣動(dòng)力學(xué),無線電和數(shù)據(jù)通信先于信息理論,計(jì)算機(jī)先于計(jì)算機(jī)科學(xué)。

因此只是因?yàn)槟壳袄碚摴ぞ哌€沒趕上實(shí)踐,就批評(píng)整個(gè)ML群體(還是個(gè)相當(dāng)成功的群體)在搞“煉金術(shù)”,這是一個(gè)非常危險(xiǎn)的行為。

為什么說危險(xiǎn)?因?yàn)檎沁@種態(tài)度,曾讓ML群體拋棄神經(jīng)網(wǎng)絡(luò)超過10年,盡管有充分的證據(jù)表明他們?cè)诤芏嗲闆r下效果很好。具有非凸損失函數(shù)的神經(jīng)網(wǎng)絡(luò)不能保證收斂。所以人們連嬰兒帶洗澡水一起潑掉了。

只是因?yàn)榭梢赃M(jìn)行理論研究就固守一套方法,而且還忽視另一套從經(jīng)驗(yàn)上來說更好的方法,僅僅是因?yàn)檫€沒有從理論上理解它?

是的,我們需要更好的理解我們所用的方法。但是,正確的態(tài)度應(yīng)該是嘗試去解決問題,而不是因?yàn)檫€沒解決就跑去羞辱整個(gè)群體。

致阿里:你每天也在用這些方法,如果你對(duì)如何理解他們不滿意,請(qǐng)動(dòng)手研究深度學(xué)習(xí)的理論,而不是抱怨其他人沒做,更不是建議NIPS世界只用“理論正確”的方法。這是錯(cuò)的。

阿里隨后跟帖回復(fù):

Yann,感謝你深思熟慮的反饋。你最后的讓我進(jìn)行理論研究的建議,正是Moritz Hardt一年前曾對(duì)我說的話。只是一小群人很難取得進(jìn)步,老實(shí)說,我被這個(gè)任務(wù)的規(guī)模壓得喘不過氣來。這次的演講也是尋求更多人的幫助。

我呼吁簡(jiǎn)單的實(shí)驗(yàn)和簡(jiǎn)單的定力,以便我們都可以毫無困惑的傳達(dá)見解。你可能已經(jīng)非常擅長(zhǎng)建立深度模型,在這方面你的經(jīng)驗(yàn)可能比幾乎任何人都多。但是想象一下新手會(huì)有怎樣的困惑,一切看起來都像魔術(shù)。大家談?wù)摰亩际钦麄€(gè)模型如何工作,而不是每一個(gè)小部分在干什么。

我認(rèn)同煉金術(shù)的方法很重要。這讓我們加速向前,解決了眼前的問題。我對(duì)那些能迅速建立起直覺以及可工作系統(tǒng)的人懷有最深的敬意。你和我在Google的許多同事都有這樣令人印象深刻的技能,但你們只是少數(shù)。

我呼吁你們不但授人以魚,而且還授人以漁,讓大家都能達(dá)到你的生產(chǎn)力水平。我所期望的“嚴(yán)謹(jǐn)”是:簡(jiǎn)單的實(shí)驗(yàn),簡(jiǎn)單的定理。

LeCun再回復(fù):

簡(jiǎn)單和通用理論很好。

熱力學(xué)的原則,讓我們免于浪費(fèi)時(shí)間去尋找永動(dòng)機(jī)。在ML領(lǐng)域我們已經(jīng)有這樣的理論,適用于所有的學(xué)習(xí)機(jī)器,包括神經(jīng)網(wǎng)絡(luò)。

但是很有可能不會(huì)有專注于神經(jīng)網(wǎng)絡(luò)的“簡(jiǎn)單”定理,原因類似于我們沒有納維-斯托克斯方程或者三體問題的解析解。

背景交代

Ali Rahimi,去年5月加入Google,目前擔(dān)任Member of Technical Staff(這個(gè)職位類似于主任工程師)。2005-2011年期間,他供職于英特爾擔(dān)任研究員。

這次被NIPS 2017評(píng)為最佳時(shí)間檢驗(yàn)獎(jiǎng)的論文《Random Features for Large-Scale Kernel Machines》,就是他在英特爾期間發(fā)表的。

1997年,阿里在UC Berkeley獲得學(xué)士學(xué)位,隨后在MIT獲得碩士和博士學(xué)位。

如果你對(duì)他感興趣,可以看看他的個(gè)人主頁。在欣賞了他的女友、兄弟和女朋友們的照片后,我感覺這也是一個(gè)“逗逼型”科學(xué)家。

主頁地址:https:///~ali/Personal.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多