id:QbitAI 誰能想到,NIPS這種頂會(huì)都能風(fēng)波乍起。 Ali Rahimi(阿里·拉希米),因?yàn)?007年發(fā)表的一篇論文,獲得今年的“Test of Time”最具時(shí)間價(jià)值大獎(jiǎng)。當(dāng)然,阿里作為最佳論文作者理所應(yīng)當(dāng)?shù)牡桥_(tái)演講。 起初,這個(gè)演講主要介紹之前的研究成果。阿里說從很多方面來講,我們的狀況都比10年前好多了。在技術(shù)上,取得了很大的進(jìn)步,街上跑著自動(dòng)駕駛汽車,人工智能可以干很多事情……基于機(jī)器學(xué)習(xí)技術(shù),能產(chǎn)生出幾十億美元的公司。 后來,火藥味逐漸濃烈起來,阿里朝著整個(gè)深度學(xué)習(xí)界開了一槍,他說: 但某些方面更糟糕了。 空氣中飄蕩著一種自鳴得意的感覺,我們會(huì)說“人工智能是新的電力”。(安德魯老師最愛的說法) 我想換個(gè)比方:機(jī)器學(xué)習(xí)已經(jīng)成了煉金術(shù)。 煉金術(shù)挺好的,煉金術(shù)沒毛病,它自有它的地位,煉金術(shù)“管用”。 煉金術(shù)帶來了冶金、紡織、現(xiàn)代玻璃制造工藝、醫(yī)療等等領(lǐng)域的發(fā)明。但同時(shí),煉金術(shù)還相信水蛭能治病,廉價(jià)金屬能變成金子。 從當(dāng)年的煉金術(shù)到現(xiàn)在的物理、化學(xué),到我們現(xiàn)在對(duì)宇宙的認(rèn)識(shí),科學(xué)家們要消解掉2000年的煉金術(shù)理論。 如果你要做個(gè)照片分享系統(tǒng),用“煉金術(shù)”就行。但我們現(xiàn)在所做的遠(yuǎn)遠(yuǎn)超出了這個(gè)范圍,我們所做的系統(tǒng)用在醫(yī)療領(lǐng)域,用在社交媒體上,甚至能影響大選。 我希望我所生活的世界里,這些系統(tǒng)都建立在嚴(yán)格、周密、可驗(yàn)證的知識(shí)之上,而不是基于“煉金術(shù)”。 我有點(diǎn)懷念十年前NIPS上質(zhì)疑各種想法夠不夠嚴(yán)謹(jǐn)?shù)摹皩W(xué)術(shù)警察”,希望他們回來。 (不關(guān)心技術(shù)細(xì)節(jié)的可以跳過下面的例子) 舉個(gè)例子,不知道你有沒有經(jīng)歷過這樣的情況:從零開始搭建、訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),然后發(fā)現(xiàn)它不管用的時(shí)候,總覺得是自己的錯(cuò)。這種狀況我大約每三個(gè)月就要經(jīng)歷一次,我想說,這不是你的錯(cuò),是梯度下降的錯(cuò)。 比如說這個(gè)最簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò),兩層線性網(wǎng)絡(luò): 左邊是我的模型,右邊是損失函數(shù),底下是不同參數(shù)設(shè)置下梯度下降的過程。有時(shí)候loss一開始下降得很快,后來就不動(dòng)了。你可能會(huì)覺得遇到了局部最小值,或者鞍點(diǎn),loss和0相差還很遠(yuǎn)。 換一個(gè)下降的方向,很快就能優(yōu)化到最低。 你可能會(huì)覺得這個(gè)例子不自然,或者說梯度下降在更大的神經(jīng)網(wǎng)絡(luò)上表現(xiàn)得不錯(cuò),我的回答是:第一,很多人都被梯度下降坑過;第二,我們把自己的工具用在簡(jiǎn)單的例子上,從中學(xué)習(xí)知識(shí),然后應(yīng)用到更復(fù)雜的場(chǎng)景,這正符合我們建立知識(shí)的方式。 梯度下降帶來的痛苦是真實(shí)存在的。 上個(gè)月,我的朋友Boris給我發(fā)了封郵件:
這樣的郵件我收到過不少,網(wǎng)上也有人在討論類似的問題。 會(huì)發(fā)生這種情況,是因?yàn)槲覀儼汛嗳醯膬?yōu)化技巧用到了我們不理解的loss上, 我們的解決方案在本來就已經(jīng)很神秘的技術(shù)上增加了更多神秘性。 Batchnorm是加速梯度下降的一種方法,把Batchnorm插入到深度神經(jīng)網(wǎng)絡(luò)的層中,梯度下降的速度就會(huì)更快。 我不排斥使用一些自己不懂的技術(shù),比如說我是坐飛機(jī)來的,并不完全清楚它的工作原理,但知道有整個(gè)航空界都在研究這項(xiàng)技術(shù)就很安心了。 而對(duì)于Batchnorm的工作原理,我們只知道它的功能是“reducing internal covariate shift”。 可是為什么這樣就能加速梯度下降了?有沒有相關(guān)的理論或者實(shí)驗(yàn)?你甚至都不清楚internal covariate shift是什么,就不想要一個(gè)定義嗎? Batchnorm已經(jīng)成了構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的一個(gè)基礎(chǔ)工具,但我們對(duì)它幾乎一無所知。 想想過去一年里你為了刷競(jìng)賽榜單而做的實(shí)驗(yàn)、嘗試的新技術(shù);再想想過去一年里你為了解釋奇怪現(xiàn)象、尋找其根源而做的努力。前者,我們做得很多,后者,我們應(yīng)該再多做一些。簡(jiǎn)單的實(shí)驗(yàn)和理論是幫我們理解復(fù)雜系統(tǒng)的基礎(chǔ)。 我們還有一件事可以做?,F(xiàn)在,所有商用硬件上運(yùn)行的成熟計(jì)算引擎都是梯度下降的變體,處理著數(shù)百億的變量。 想象一下,如果我們有能在標(biāo)準(zhǔn)商用硬件上運(yùn)行,處理數(shù)百億變量線性解算器或者矩陣分解引擎,想象一下這樣我們能做出多好的優(yōu)化算法,用多好的模型來做實(shí)驗(yàn),當(dāng)然,這在數(shù)學(xué)上和系統(tǒng)上都很難,但這正是我們要解決的問題。 我對(duì)這個(gè)圈子有真摯的愛,這也是為什么我會(huì)站在這兒,號(hào)召大家更嚴(yán)格精確,別那么像煉金術(shù)師。 希望我們可以共同努力,將機(jī)器學(xué)習(xí)從“煉金術(shù)”變成“電力”。 完整演講,參見下面這段視頻: LeCun:實(shí)名反對(duì)一石激起千層浪,阿里的演講引發(fā)了熱烈的討論。 深度學(xué)習(xí)專家、前谷歌大腦成員Denny Britz說:“對(duì)很多人來說,這是NIPS的高光時(shí)刻。深度學(xué)習(xí)就像煉金術(shù),我們不知道發(fā)生了什么。我們需要在這個(gè)領(lǐng)域更加嚴(yán)謹(jǐn)。如果你知道背后沒有可靠的科學(xué)理論,你會(huì)坐上飛機(jī)么?” 當(dāng)然也有人立刻拋出不同意見。比如號(hào)稱“三巨頭”之一的Yann LeCun。他在Facebook上發(fā)表了一篇“長(zhǎng)篇大論”進(jìn)行了闡釋。 原文概要如下: 阿里發(fā)表了一個(gè)有趣的演講,但我壓根不同意他說的話。他的核心思想是說:機(jī)器學(xué)習(xí)(ML)現(xiàn)在的實(shí)踐,類似于“煉金術(shù)”(他的原話)。 這是種侮辱,是的。但是不要擔(dān)心:他是錯(cuò)的。 阿里抱怨目前ML使用的許多方法,缺乏(理論上)的理解,尤其是在深度學(xué)習(xí)領(lǐng)域。理解是好事,這也是NIPS群體中很多人追求的目標(biāo)。 但另一個(gè)更重要的目標(biāo)是發(fā)明新的方法、新的技術(shù),以及新的技巧(tricks)。 翻看科學(xué)技術(shù)發(fā)展的歷史,工程實(shí)踐總是先于理論理解出現(xiàn):透鏡和望遠(yuǎn)鏡先于光學(xué)理論,蒸汽機(jī)先于熱動(dòng)力學(xué),飛機(jī)先于空氣動(dòng)力學(xué),無線電和數(shù)據(jù)通信先于信息理論,計(jì)算機(jī)先于計(jì)算機(jī)科學(xué)。 因此只是因?yàn)槟壳袄碚摴ぞ哌€沒趕上實(shí)踐,就批評(píng)整個(gè)ML群體(還是個(gè)相當(dāng)成功的群體)在搞“煉金術(shù)”,這是一個(gè)非常危險(xiǎn)的行為。 為什么說危險(xiǎn)?因?yàn)檎沁@種態(tài)度,曾讓ML群體拋棄神經(jīng)網(wǎng)絡(luò)超過10年,盡管有充分的證據(jù)表明他們?cè)诤芏嗲闆r下效果很好。具有非凸損失函數(shù)的神經(jīng)網(wǎng)絡(luò)不能保證收斂。所以人們連嬰兒帶洗澡水一起潑掉了。 只是因?yàn)榭梢赃M(jìn)行理論研究就固守一套方法,而且還忽視另一套從經(jīng)驗(yàn)上來說更好的方法,僅僅是因?yàn)檫€沒有從理論上理解它? 是的,我們需要更好的理解我們所用的方法。但是,正確的態(tài)度應(yīng)該是嘗試去解決問題,而不是因?yàn)檫€沒解決就跑去羞辱整個(gè)群體。 致阿里:你每天也在用這些方法,如果你對(duì)如何理解他們不滿意,請(qǐng)動(dòng)手研究深度學(xué)習(xí)的理論,而不是抱怨其他人沒做,更不是建議NIPS世界只用“理論正確”的方法。這是錯(cuò)的。 阿里隨后跟帖回復(fù): Yann,感謝你深思熟慮的反饋。你最后的讓我進(jìn)行理論研究的建議,正是Moritz Hardt一年前曾對(duì)我說的話。只是一小群人很難取得進(jìn)步,老實(shí)說,我被這個(gè)任務(wù)的規(guī)模壓得喘不過氣來。這次的演講也是尋求更多人的幫助。 我呼吁簡(jiǎn)單的實(shí)驗(yàn)和簡(jiǎn)單的定力,以便我們都可以毫無困惑的傳達(dá)見解。你可能已經(jīng)非常擅長(zhǎng)建立深度模型,在這方面你的經(jīng)驗(yàn)可能比幾乎任何人都多。但是想象一下新手會(huì)有怎樣的困惑,一切看起來都像魔術(shù)。大家談?wù)摰亩际钦麄€(gè)模型如何工作,而不是每一個(gè)小部分在干什么。 我認(rèn)同煉金術(shù)的方法很重要。這讓我們加速向前,解決了眼前的問題。我對(duì)那些能迅速建立起直覺以及可工作系統(tǒng)的人懷有最深的敬意。你和我在Google的許多同事都有這樣令人印象深刻的技能,但你們只是少數(shù)。 我呼吁你們不但授人以魚,而且還授人以漁,讓大家都能達(dá)到你的生產(chǎn)力水平。我所期望的“嚴(yán)謹(jǐn)”是:簡(jiǎn)單的實(shí)驗(yàn),簡(jiǎn)單的定理。 LeCun再回復(fù): 簡(jiǎn)單和通用理論很好。 熱力學(xué)的原則,讓我們免于浪費(fèi)時(shí)間去尋找永動(dòng)機(jī)。在ML領(lǐng)域我們已經(jīng)有這樣的理論,適用于所有的學(xué)習(xí)機(jī)器,包括神經(jīng)網(wǎng)絡(luò)。 但是很有可能不會(huì)有專注于神經(jīng)網(wǎng)絡(luò)的“簡(jiǎn)單”定理,原因類似于我們沒有納維-斯托克斯方程或者三體問題的解析解。 背景交代Ali Rahimi,去年5月加入Google,目前擔(dān)任Member of Technical Staff(這個(gè)職位類似于主任工程師)。2005-2011年期間,他供職于英特爾擔(dān)任研究員。 這次被NIPS 2017評(píng)為最佳時(shí)間檢驗(yàn)獎(jiǎng)的論文《Random Features for Large-Scale Kernel Machines》,就是他在英特爾期間發(fā)表的。 1997年,阿里在UC Berkeley獲得學(xué)士學(xué)位,隨后在MIT獲得碩士和博士學(xué)位。 如果你對(duì)他感興趣,可以看看他的個(gè)人主頁。在欣賞了他的女友、兄弟和女朋友們的照片后,我感覺這也是一個(gè)“逗逼型”科學(xué)家。 主頁地址:https:///~ali/Personal.html |
|