作者:姜范波、Aileen、Yawei Xia、龍牧雪、魏子敏 距離阿爾法狗元版本刷屏一個(gè)多月時(shí)間,阿爾法狗又進(jìn)化了,這次不光可以玩圍棋,不再是“狗”了。我一點(diǎn)也不驚訝。 在用阿爾法狗(AlphaGo)和阿爾法狗元(AlphaGo Zero)稱霸圍棋世界后,當(dāng)?shù)貢r(shí)間周二晚,DeepMind的研究組宣布已經(jīng)開發(fā)出一個(gè)更為廣泛的阿爾法元(AlphaZero)系統(tǒng),它可以訓(xùn)練自己在棋盤,將棋和其他規(guī)則化游戲中實(shí)現(xiàn)“超人”技能,所有這些都在一天之內(nèi)完成,并且無需其他干預(yù),戰(zhàn)績斐然:
這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進(jìn)的場景: 在各路高手的真力激蕩之下打通數(shù)十處玄關(guān),練成了獨(dú)步天下的九陽神功,從此化身武林學(xué)霸。短短幾個(gè)時(shí)辰內(nèi)就練成了第七層乾坤大挪移,無論是太極拳劍還是圣火令武功都手到擒來,成為武林的百科全書。 盡管如此,阿爾法元(AlphaZero)距離一個(gè)真正的通用目標(biāo),獨(dú)立AI,還有一定的距離 。國際象棋和將棋是比較容易的測試,因?yàn)樗鼈儽葒搴唵?。而像“星際爭霸2”這樣復(fù)雜的視頻游戲完全是另一碼事,更不用說散步、藝術(shù)或抽象思維等模糊的概念了。 另外還有速度的問題:雖然用來學(xué)習(xí)棋盤游戲的時(shí)間少于24小時(shí),但對于AI需要現(xiàn)場適應(yīng)的情況,速度太慢。DeepMind報(bào)告也說,訓(xùn)練該軟件使用了5064臺(tái)功能強(qiáng)大的定制機(jī)器學(xué)習(xí)處理器(被稱為TPU)。(簡直野蠻暴力) 但仍然不可否認(rèn),這是人工智能邁出的重要一步。 在大數(shù)據(jù)文摘后臺(tái)回復(fù)“alpha”,下載DeepMind最新論文 論文地址 https:///pdf/1712.01815.pdf (還未經(jīng)過peer review) 回憶人工智能的歷史,很多人的印象都是一堆“各類技能”冠軍——井字棋、跳棋和國際象棋。幾十年來,研究人員已經(jīng)研制了一系列超級(jí)專業(yè)的程序,在越來越高難度的游戲中擊敗人類。近期在圍棋上,Deepmind的阿爾法狗也超越了人類。但是,這些人造冠軍們的共同弱點(diǎn)是——都只能玩某一種精心設(shè)計(jì)的游戲。而人類即使在某些技能上輸了,在精通多種技藝這一點(diǎn)上,仍然完爆人工智能。 近日,DeepMind官方宣布了第一個(gè)多技能的AI棋類游戲冠軍程序。當(dāng)?shù)貢r(shí)間周二晚,Deepmind發(fā)布的一篇論文描述了一款名為AlphaZero的軟件,它可以在三種具有挑戰(zhàn)性的游戲中自學(xué),表現(xiàn)超越人類:國際象棋,圍棋或?qū)⑵澹ㄒ喾Q日本象棋)。 DeepMind在文章中描述了AlphaZero的學(xué)習(xí)過程。人類不再是國際象棋,圍棋和將棋中最好的選手,所以AlphaZero就用最好的專業(yè)人工選手(計(jì)算機(jī)程序Stockfish、Elmo、AlphaGo Zero)進(jìn)行測試。這個(gè)新程序很快就打敗了這三個(gè)人工棋手: 只用了4個(gè)小時(shí)成為了世界級(jí)的國際象棋冠軍;用2個(gè)小時(shí)在將棋上達(dá)到世界級(jí)水平;只花了8小時(shí)戰(zhàn)勝DeepMind引以為傲、也是之前已知最好的圍棋選手AlphaGo Zero。 圖:經(jīng)過70萬步訓(xùn)練的AlphaZero。它的對手是國際象棋的2016TCEC世界冠軍程序Stockfish,將棋的2017CSA世界冠軍程序Elmo,和大家都知道的AlphaGo Zero。每一手棋雙方只有1秒的反應(yīng)時(shí)間。 DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通過同樣的自我對練機(jī)制學(xué)習(xí)。AlphaZero核心的算法是它的升級(jí)版本,能夠搜索更廣泛的可能策略以適應(yīng)不同的游戲。 AlphaZero可以從頭開始學(xué)習(xí)三個(gè)游戲中的每一個(gè),盡管它需要按照每個(gè)游戲的規(guī)則進(jìn)行編程。該程序通過與自己對練提高技能成為專家,嘗試不同的玩法來發(fā)現(xiàn)獲勝的途徑。 圖:人類常用的國際象棋的12種開局方式解析 AlphaZero還沒有辦法學(xué)會(huì)同時(shí)參加三場比賽。但是,一個(gè)程序?qū)W習(xí)三種不同的復(fù)雜游戲,能達(dá)到如此高的水平,還是驚人的,因?yàn)锳I系統(tǒng)——包括那些可以“學(xué)習(xí)”的——通常是非常專業(yè)的,需要經(jīng)歷磨練來解決特定的問題。即使是最好的人工智能系統(tǒng)也不能在兩個(gè)問題之間進(jìn)行泛化——因此,許多專家認(rèn)為機(jī)器要取代人還有很長一段路要走。 AlphaZero可能是AI系統(tǒng)走向非專門化的一小步。紐約大學(xué)教授Julian Togelius在周二發(fā)布的推文中指出,真正泛化的AI還道阻且長,但稱DeepMind的論文“非常出色”。 圖:國際象棋和將棋中,AlphaZero每一手棋的思考時(shí)間,和相應(yīng)的模型表現(xiàn)(Elo) 而DeepMind的這一研究進(jìn)展對于業(yè)界來說也非常重要。更靈活的機(jī)器學(xué)習(xí)軟件可以幫助谷歌加速在業(yè)務(wù)內(nèi)部擴(kuò)展人工智能技術(shù)。DeepMind最新發(fā)明中的技術(shù)也可能幫助團(tuán)隊(duì)挑戰(zhàn)視頻游戲“星際爭霸”(StarCraft),后者已經(jīng)成為它的下一個(gè)目標(biāo)。一個(gè)流行的商業(yè)視頻游戲似乎沒有正式而抽象的棋盤游戲那么令人生畏。但“星際爭霸”被認(rèn)為復(fù)雜度更高,因?yàn)樗鞣N變量和特征的安排自由度更大,玩家必須預(yù)見對手不可見的行為。 相比可以學(xué)習(xí)三個(gè)以上的棋盤游戲,并能解決各種空間,常識(shí),邏輯,藝術(shù)和社會(huì)難題的人腦,AlphaZero的智力水平仍然有限。 DeepMind論文中顯示,AlphaZero在三種游戲中使用了同樣的算法設(shè)置、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)。訓(xùn)練過程包括70萬步(4096大小的mini-batch),從隨機(jī)生成的參數(shù)開始,使用了5000臺(tái)TPU生成自對抗的棋局,接著使用64臺(tái)TPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)。 一共5064臺(tái)TPU!文摘菌不得不感慨“何以解憂,唯有暴富”。 相較于阿爾法狗元(AlphaGo Zero)用到的64臺(tái)GPU和19臺(tái)CPU,AlphaZero的算力可謂得到了指數(shù)級(jí)提升。算法的訓(xùn)練時(shí)間也從阿爾法狗元的“幾天”提升到了現(xiàn)在的“8小時(shí)”。 回頭看看戰(zhàn)勝了李世石和柯潔的驚天動(dòng)地的阿爾法狗,已經(jīng)顯得像原始人了。它用到了1920臺(tái)CPU和280臺(tái)GPU,需要訓(xùn)練幾個(gè)月。 人工智能的發(fā)展,有3個(gè)驅(qū)動(dòng)力——數(shù)據(jù)、算法、算力。神經(jīng)網(wǎng)絡(luò)的“左右互搏”在數(shù)據(jù)和算法上做出了突破,而谷歌的TPU計(jì)算資源支持更是AlphaZero致勝的秘訣之一。 從10月底圍棋超人阿爾法狗元的誕生,到12月進(jìn)化成三種棋類超人阿爾法元,不過只用了短短一個(gè)多月的時(shí)間。 |
|