機(jī)器學(xué)習(xí)是煉金術(shù)？

金麟167 2017-12-17

展開全文

id：QbitAI

誰能想到，NIPS這種頂會(huì)都能風(fēng)波乍起。

Ali Rahimi（阿里·拉希米），因?yàn)?007年發(fā)表的一篇論文，獲得今年的“Test of Time”最具時(shí)間價(jià)值大獎(jiǎng)。當(dāng)然，阿里作為最佳論文作者理所應(yīng)當(dāng)?shù)牡桥_(tái)演講。

起初，這個(gè)演講主要介紹之前的研究成果。阿里說從很多方面來講，我們的狀況都比10年前好多了。在技術(shù)上，取得了很大的進(jìn)步，街上跑著自動(dòng)駕駛汽車，人工智能可以干很多事情……基于機(jī)器學(xué)習(xí)技術(shù)，能產(chǎn)生出幾十億美元的公司。

后來，火藥味逐漸濃烈起來，阿里朝著整個(gè)深度學(xué)習(xí)界開了一槍，他說：

但某些方面更糟糕了。

空氣中飄蕩著一種自鳴得意的感覺，我們會(huì)說“人工智能是新的電力”。（安德魯老師最愛的說法）

我想換個(gè)比方：機(jī)器學(xué)習(xí)已經(jīng)成了煉金術(shù)。

煉金術(shù)挺好的，煉金術(shù)沒毛病，它自有它的地位，煉金術(shù)“管用”。

煉金術(shù)帶來了冶金、紡織、現(xiàn)代玻璃制造工藝、醫(yī)療等等領(lǐng)域的發(fā)明。但同時(shí)，煉金術(shù)還相信水蛭能治病，廉價(jià)金屬能變成金子。

從當(dāng)年的煉金術(shù)到現(xiàn)在的物理、化學(xué)，到我們現(xiàn)在對(duì)宇宙的認(rèn)識(shí)，科學(xué)家們要消解掉2000年的煉金術(shù)理論。

如果你要做個(gè)照片分享系統(tǒng)，用“煉金術(shù)”就行。但我們現(xiàn)在所做的遠(yuǎn)遠(yuǎn)超出了這個(gè)范圍，我們所做的系統(tǒng)用在醫(yī)療領(lǐng)域，用在社交媒體上，甚至能影響大選。

我希望我所生活的世界里，這些系統(tǒng)都建立在嚴(yán)格、周密、可驗(yàn)證的知識(shí)之上，而不是基于“煉金術(shù)”。

我有點(diǎn)懷念十年前NIPS上質(zhì)疑各種想法夠不夠嚴(yán)謹(jǐn)?shù)摹皩W(xué)術(shù)警察”，希望他們回來。

（不關(guān)心技術(shù)細(xì)節(jié)的可以跳過下面的例子）

舉個(gè)例子，不知道你有沒有經(jīng)歷過這樣的情況：從零開始搭建、訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，然后發(fā)現(xiàn)它不管用的時(shí)候，總覺得是自己的錯(cuò)。這種狀況我大約每三個(gè)月就要經(jīng)歷一次，我想說，這不是你的錯(cuò)，是梯度下降的錯(cuò)。

比如說這個(gè)最簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò)，兩層線性網(wǎng)絡(luò)：

左邊是我的模型，右邊是損失函數(shù)，底下是不同參數(shù)設(shè)置下梯度下降的過程。有時(shí)候loss一開始下降得很快，后來就不動(dòng)了。你可能會(huì)覺得遇到了局部最小值，或者鞍點(diǎn)，loss和0相差還很遠(yuǎn)。

換一個(gè)下降的方向，很快就能優(yōu)化到最低。

你可能會(huì)覺得這個(gè)例子不自然，或者說梯度下降在更大的神經(jīng)網(wǎng)絡(luò)上表現(xiàn)得不錯(cuò)，我的回答是：第一，很多人都被梯度下降坑過；第二，我們把自己的工具用在簡(jiǎn)單的例子上，從中學(xué)習(xí)知識(shí)，然后應(yīng)用到更復(fù)雜的場(chǎng)景，這正符合我們建立知識(shí)的方式。

梯度下降帶來的痛苦是真實(shí)存在的。

上個(gè)月，我的朋友Boris給我發(fā)了封郵件：

周五，另一個(gè)組有人改動(dòng)了TensorFlow內(nèi)部的默認(rèn)舍入模式，從“舍到0”改成了“四舍五入到偶數(shù)”。
我們的訓(xùn)練就崩潰了，誤差從＜25%飆升到了~99.97%。

這樣的郵件我收到過不少，網(wǎng)上也有人在討論類似的問題。

會(huì)發(fā)生這種情況，是因?yàn)槲覀儼汛嗳醯膬?yōu)化技巧用到了我們不理解的loss上，我們的解決方案在本來就已經(jīng)很神秘的技術(shù)上增加了更多神秘性。

Batchnorm是加速梯度下降的一種方法，把Batchnorm插入到深度神經(jīng)網(wǎng)絡(luò)的層中，梯度下降的速度就會(huì)更快。

我不排斥使用一些自己不懂的技術(shù)，比如說我是坐飛機(jī)來的，并不完全清楚它的工作原理，但知道有整個(gè)航空界都在研究這項(xiàng)技術(shù)就很安心了。

而對(duì)于Batchnorm的工作原理，我們只知道它的功能是“reducing internal covariate shift”。

可是為什么這樣就能加速梯度下降了？有沒有相關(guān)的理論或者實(shí)驗(yàn)？你甚至都不清楚internal covariate shift是什么，就不想要一個(gè)定義嗎？

Batchnorm已經(jīng)成了構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的一個(gè)基礎(chǔ)工具，但我們對(duì)它幾乎一無所知。

想想過去一年里你為了刷競(jìng)賽榜單而做的實(shí)驗(yàn)、嘗試的新技術(shù)；再想想過去一年里你為了解釋奇怪現(xiàn)象、尋找其根源而做的努力。前者，我們做得很多，后者，我們應(yīng)該再多做一些。簡(jiǎn)單的實(shí)驗(yàn)和理論是幫我們理解復(fù)雜系統(tǒng)的基礎(chǔ)。

我們還有一件事可以做?，F(xiàn)在，所有商用硬件上運(yùn)行的成熟計(jì)算引擎都是梯度下降的變體，處理著數(shù)百億的變量。

想象一下，如果我們有能在標(biāo)準(zhǔn)商用硬件上運(yùn)行，處理數(shù)百億變量線性解算器或者矩陣分解引擎，想象一下這樣我們能做出多好的優(yōu)化算法，用多好的模型來做實(shí)驗(yàn)，當(dāng)然，這在數(shù)學(xué)上和系統(tǒng)上都很難，但這正是我們要解決的問題。

我對(duì)這個(gè)圈子有真摯的愛，這也是為什么我會(huì)站在這兒，號(hào)召大家更嚴(yán)格精確，別那么像煉金術(shù)師。

希望我們可以共同努力，將機(jī)器學(xué)習(xí)從“煉金術(shù)”變成“電力”。

完整演講，參見下面這段視頻：

LeCun：實(shí)名反對(duì)

一石激起千層浪，阿里的演講引發(fā)了熱烈的討論。

深度學(xué)習(xí)專家、前谷歌大腦成員Denny Britz說：“對(duì)很多人來說，這是NIPS的高光時(shí)刻。深度學(xué)習(xí)就像煉金術(shù)，我們不知道發(fā)生了什么。我們需要在這個(gè)領(lǐng)域更加嚴(yán)謹(jǐn)。如果你知道背后沒有可靠的科學(xué)理論，你會(huì)坐上飛機(jī)么？”

當(dāng)然也有人立刻拋出不同意見。比如號(hào)稱“三巨頭”之一的Yann LeCun。他在Facebook上發(fā)表了一篇“長(zhǎng)篇大論”進(jìn)行了闡釋。

原文概要如下：

阿里發(fā)表了一個(gè)有趣的演講，但我壓根不同意他說的話。他的核心思想是說：機(jī)器學(xué)習(xí)（ML）現(xiàn)在的實(shí)踐，類似于“煉金術(shù)”（他的原話）。

這是種侮辱，是的。但是不要擔(dān)心：他是錯(cuò)的。

阿里抱怨目前ML使用的許多方法，缺乏（理論上）的理解，尤其是在深度學(xué)習(xí)領(lǐng)域。理解是好事，這也是NIPS群體中很多人追求的目標(biāo)。

但另一個(gè)更重要的目標(biāo)是發(fā)明新的方法、新的技術(shù)，以及新的技巧（tricks）。

翻看科學(xué)技術(shù)發(fā)展的歷史，工程實(shí)踐總是先于理論理解出現(xiàn)：透鏡和望遠(yuǎn)鏡先于光學(xué)理論，蒸汽機(jī)先于熱動(dòng)力學(xué)，飛機(jī)先于空氣動(dòng)力學(xué)，無線電和數(shù)據(jù)通信先于信息理論，計(jì)算機(jī)先于計(jì)算機(jī)科學(xué)。

因此只是因?yàn)槟壳袄碚摴ぞ哌€沒趕上實(shí)踐，就批評(píng)整個(gè)ML群體（還是個(gè)相當(dāng)成功的群體）在搞“煉金術(shù)”，這是一個(gè)非常危險(xiǎn)的行為。

為什么說危險(xiǎn)？因?yàn)檎沁@種態(tài)度，曾讓ML群體拋棄神經(jīng)網(wǎng)絡(luò)超過10年，盡管有充分的證據(jù)表明他們?cè)诤芏嗲闆r下效果很好。具有非凸損失函數(shù)的神經(jīng)網(wǎng)絡(luò)不能保證收斂。所以人們連嬰兒帶洗澡水一起潑掉了。

只是因?yàn)榭梢赃M(jìn)行理論研究就固守一套方法，而且還忽視另一套從經(jīng)驗(yàn)上來說更好的方法，僅僅是因?yàn)檫€沒有從理論上理解它？

是的，我們需要更好的理解我們所用的方法。但是，正確的態(tài)度應(yīng)該是嘗試去解決問題，而不是因?yàn)檫€沒解決就跑去羞辱整個(gè)群體。

致阿里：你每天也在用這些方法，如果你對(duì)如何理解他們不滿意，請(qǐng)動(dòng)手研究深度學(xué)習(xí)的理論，而不是抱怨其他人沒做，更不是建議NIPS世界只用“理論正確”的方法。這是錯(cuò)的。

阿里隨后跟帖回復(fù)：

Yann，感謝你深思熟慮的反饋。你最后的讓我進(jìn)行理論研究的建議，正是Moritz Hardt一年前曾對(duì)我說的話。只是一小群人很難取得進(jìn)步，老實(shí)說，我被這個(gè)任務(wù)的規(guī)模壓得喘不過氣來。這次的演講也是尋求更多人的幫助。

我呼吁簡(jiǎn)單的實(shí)驗(yàn)和簡(jiǎn)單的定力，以便我們都可以毫無困惑的傳達(dá)見解。你可能已經(jīng)非常擅長(zhǎng)建立深度模型，在這方面你的經(jīng)驗(yàn)可能比幾乎任何人都多。但是想象一下新手會(huì)有怎樣的困惑，一切看起來都像魔術(shù)。大家談?wù)摰亩际钦麄€(gè)模型如何工作，而不是每一個(gè)小部分在干什么。

我認(rèn)同煉金術(shù)的方法很重要。這讓我們加速向前，解決了眼前的問題。我對(duì)那些能迅速建立起直覺以及可工作系統(tǒng)的人懷有最深的敬意。你和我在Google的許多同事都有這樣令人印象深刻的技能，但你們只是少數(shù)。

我呼吁你們不但授人以魚，而且還授人以漁，讓大家都能達(dá)到你的生產(chǎn)力水平。我所期望的“嚴(yán)謹(jǐn)”是：簡(jiǎn)單的實(shí)驗(yàn)，簡(jiǎn)單的定理。

LeCun再回復(fù)：

簡(jiǎn)單和通用理論很好。

熱力學(xué)的原則，讓我們免于浪費(fèi)時(shí)間去尋找永動(dòng)機(jī)。在ML領(lǐng)域我們已經(jīng)有這樣的理論，適用于所有的學(xué)習(xí)機(jī)器，包括神經(jīng)網(wǎng)絡(luò)。

但是很有可能不會(huì)有專注于神經(jīng)網(wǎng)絡(luò)的“簡(jiǎn)單”定理，原因類似于我們沒有納維-斯托克斯方程或者三體問題的解析解。

背景交代

Ali Rahimi，去年5月加入Google，目前擔(dān)任Member of Technical Staff（這個(gè)職位類似于主任工程師）。2005-2011年期間，他供職于英特爾擔(dān)任研究員。

這次被NIPS 2017評(píng)為最佳時(shí)間檢驗(yàn)獎(jiǎng)的論文《Random Features for Large-Scale Kernel Machines》，就是他在英特爾期間發(fā)表的。

1997年，阿里在UC Berkeley獲得學(xué)士學(xué)位，隨后在MIT獲得碩士和博士學(xué)位。

如果你對(duì)他感興趣，可以看看他的個(gè)人主頁。在欣賞了他的女友、兄弟和女朋友們的照片后，我感覺這也是一個(gè)“逗逼型”科學(xué)家。

主頁地址：https:///~ali/Personal.html

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：金麟167 > 《首藏園地》

舉報(bào)/認(rèn)領(lǐng)