來源:csail. 編輯:夢佳、雅新 【新智元導(dǎo)讀】孩子們通過好奇心解鎖世界。相比之下,把計算機放到新環(huán)境中通常會卡頓。為此,研究人員嘗試將好奇心編碼到他們的算法中,希望智能體在探索的驅(qū)動下,能夠更好地了解他所處的環(huán)境?!感轮窃逼钢鞴P、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情?!?/span>很多偉大的發(fā)明一開始都是好奇心驅(qū)使的。蘋果砸到牛頓頭上,他開始思考為什么蘋果會從樹上掉下來,于是得出了萬有引力定律。瓦特對燒水壺冒出的蒸汽十分好奇,最后改良了蒸汽機。因為好奇,成就了「昆蟲界的荷馬」法布爾。因為好奇,德萊斯發(fā)明了自行車。在好奇心的驅(qū)使下,人們探索世界并從經(jīng)驗中學(xué)到了新技能。相比之下,把計算機放到新的環(huán)境中,有時就會出現(xiàn)故障。為了能讓計算機更好地適應(yīng)新環(huán)境,工程師們嘗試將好奇心編碼到算法中,希望在好奇心推動下智能體能夠去更有效地探索,了解他所處的環(huán)境。就和小孩學(xué)習(xí)新事物一樣,智能體要首先從撿東西,操縱使用物體,投擲東西學(xué)起,實現(xiàn)了這些基本操作,學(xué)習(xí)其他事物的能力也會隨之加快。工程師已發(fā)現(xiàn)了許多方法,能夠?qū)⒑闷嫣剿鳈C制編碼到機器學(xué)習(xí)算法中。一直以來,研究人員也通過計算機來搜索新的算法。最近,麻省理工學(xué)院的一個研究小組在思考計算機在算法設(shè)計方面是否比人有優(yōu)勢。近年來,深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(通過調(diào)整參數(shù)來搜索解決方案的算法)已通過Google的AutoML和Python中的auto-sklearn等軟件實現(xiàn)了自動化。這使那些非專業(yè)人士也能輕易地開發(fā)AI應(yīng)用程序。但是,盡管深度神經(jīng)網(wǎng)絡(luò)擅長做特定任務(wù),但它們在新的環(huán)境中適用性不高。相比之下,用高級編程語言編出的算法能在不同任務(wù)和環(huán)境中遷移知識。 研究的合著者,麻省理工學(xué)院電氣工程與計算機科學(xué)系,以及計算機科學(xué)與人工智能實驗室(CSAIL)的研究生Ferran Alet說:「人為設(shè)計的算法非常普通。我們受到啟發(fā),使用AI來發(fā)現(xiàn)具有好奇心且能適應(yīng)各種不同環(huán)境的算法?!?/span>同時,作者表示,「 我們從人和其他動物的好奇行為中汲取了靈感。假設(shè)好奇心是進化過程中探索發(fā)現(xiàn)的一種機制,該機制促使智能體在生命早期進行有意義的探索。這項探索使它能夠在其一生學(xué)習(xí)中,不斷獲取經(jīng)驗贏得高額回報。我們將產(chǎn)生好奇行為的問題作為一種元學(xué)習(xí)。」研究人員創(chuàng)建了一種「元學(xué)習(xí)」算法,該算法生成了52,000個探索算法。他們發(fā)現(xiàn)最上面的兩個是全新的算法,從人為角度看,似乎太明顯,違反直覺了。這兩種算法都產(chǎn)生了探索行為,從根本上改善了一系列模擬任務(wù)中的學(xué)習(xí)過程,從二維網(wǎng)格圖像導(dǎo)航到機器人螞蟻行走。由于元學(xué)習(xí)過程會輸出高級計算機代碼,因此可以分解這兩種算法,以了解其內(nèi)部決策過程。 該論文的高級作者是麻省理工學(xué)院計算機科學(xué)和電氣工程學(xué)教授Lesile Kaelbling和Tomas Lozano-Perez。這項工作將在2020ICLR大會上進行具體介紹。 Google的首席科學(xué)家Quoc Le表示,「使用程序檢索來發(fā)現(xiàn)更好的內(nèi)在獎勵機制是非常有創(chuàng)意的,它幫助開拓了計算機輔助深度學(xué)習(xí)模型的設(shè)計。我非常喜歡這個idea,在于它的程序是可以解讀的」研究人員將自動化的算法設(shè)計過程,比作是用有限的單詞來寫句子的過程。他們首先選擇了一組基本構(gòu)建模塊來定義其探索算法。在研究了其他好奇心算法以獲得靈感之后,他們挑選了30多種高級操作,包括基本程序和深度學(xué)習(xí)模型,來引導(dǎo)智能體做一些事情,比如記住以前的輸入,比較當(dāng)前和過去的輸入,并使用學(xué)習(xí)方法來改變自己的模塊。然后,計算機一次最多可以組合7種不同操作,生成描述52,000種算法的計算圖。即使用一臺快速的計算機,對所有的算法進行測試都要花費數(shù)十年的時間。因此,研究人員首先排除了那些從代碼結(jié)構(gòu)就預(yù)測出其性能較差的算法,來縮小范圍。然后,他們在一項基本的網(wǎng)格坐標導(dǎo)航任務(wù)上測試了那些最看好的算法,網(wǎng)格導(dǎo)航任務(wù)需要大量的探索行為,但計算量最少。如果某項算法表現(xiàn)良好,那么它的表現(xiàn)就成為新的基準,從而淘汰更多候選人。 研究人員用四臺計算機搜索了10多個小時,以找到最佳算法。結(jié)果發(fā)現(xiàn),超過99%都是垃圾算法,但大約有一百種是優(yōu)勝的高性能算法。值得注意的是,前16名優(yōu)勝的算法既新穎又好用,在其他虛擬任務(wù)(從登上月球車,到舉起機械臂,再到移動類似螞蟻的機器人)的性能上,都比人類設(shè)計的算法要好,至少實力相當(dāng)。所有16種算法都產(chǎn)生了兩個基本的探索功能。 第一種,智能體會因為訪問新的地方而獲得獎勵,因為在那里他們有更大的機會采取新的行動。第二種,智能體也會因為訪問新地方而獲得獎勵,但以一種更細微的方式: 其中一個神經(jīng)網(wǎng)絡(luò)預(yù)測未來的狀態(tài),而另一個回憶過去,然后試圖通過在未來回憶過去來預(yù)測現(xiàn)在。如果這個預(yù)測結(jié)果是錯誤的,那么它會獎勵自己,因為這是一個信號,表明它發(fā)現(xiàn)了以前不知道的東西。第二種算法是如此違反直覺,以至于研究人員花了很長時間才弄明白。「我們的偏見常常使我們無法嘗試非常創(chuàng)新的想法,」Alet說?!傅怯嬎銠C不會。他們會多多嘗試,看看怎么樣,有時反而會得到意想不到的出色結(jié)果。」越來越多的研究人員轉(zhuǎn)向機器學(xué)習(xí),來設(shè)計更好的機器學(xué)習(xí)算法,這其中就包括AutoML。Google的Le和他的同事們最近推出了一款新的算法發(fā)現(xiàn)工具,名為Auto-ML Zero。 (它的名字是谷歌的 AutoML 軟件和谷歌 DeepMind 的 Alpha Zero的結(jié)合,前者為給定的應(yīng)用程序定制深層網(wǎng)絡(luò)架構(gòu),后者可以通過自己玩數(shù)百萬個游戲,來學(xué)習(xí)玩不同的棋盤游戲。)他們的方法是在大量的算法當(dāng)中搜索原始運算更簡單的算法。但是,他們的目標不是發(fā)現(xiàn)探索策略,而是發(fā)現(xiàn)能夠?qū)D像進行分類的算法。兩項研究都表明,人類有能力使用機器學(xué)習(xí)方法來創(chuàng)建新穎的,高性能的機器學(xué)習(xí)算法。「生成的算法可以被人類讀取和解讀,但是要真正理解這些代碼,我們必須對每個變量和操作進行推理,以及它們?nèi)绾坞S著時間演變,」研究合著者,麻省理工學(xué)院研究生Martin Schneider說?!冈O(shè)計算法和工作流程,利用計算機來評估大量算法,是一個有趣的挑戰(zhàn)。同時我們也要來解釋和改進這些想法,」參考鏈接:
https://www.csail./news/automating-search-entirely-new-curiosity-algorithms
|