完爆阿爾法狗元，DeepMind用5000臺(tái)TPU訓(xùn)練出新算法，1天內(nèi)稱霸3種棋類

葉老師YP 2017-12-07

展開全文

作者：姜范波、Aileen、Yawei Xia、龍牧雪、魏子敏

距離阿爾法狗元版本刷屏一個(gè)多月時(shí)間，阿爾法狗又進(jìn)化了，這次不光可以玩圍棋，不再是“狗”了。我一點(diǎn)也不驚訝。

在用阿爾法狗（AlphaGo）和阿爾法狗元（AlphaGo Zero）稱霸圍棋世界后，當(dāng)?shù)貢r(shí)間周二晚，DeepMind的研究組宣布已經(jīng)開發(fā)出一個(gè)更為廣泛的阿爾法元（AlphaZero）系統(tǒng)，它可以訓(xùn)練自己在棋盤，將棋和其他規(guī)則化游戲中實(shí)現(xiàn)“超人”技能，所有這些都在一天之內(nèi)完成，并且無需其他干預(yù)，戰(zhàn)績斐然：

4個(gè)小時(shí)成為了世界級(jí)的國際象棋冠軍；
2個(gè)小時(shí)在將棋上達(dá)到世界級(jí)水平；
8個(gè)小時(shí)戰(zhàn)勝DeepMind引以為傲的圍棋選手AlphaGo Zero。

這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進(jìn)的場景：

在各路高手的真力激蕩之下打通數(shù)十處玄關(guān)，練成了獨(dú)步天下的九陽神功，從此化身武林學(xué)霸。短短幾個(gè)時(shí)辰內(nèi)就練成了第七層乾坤大挪移，無論是太極拳劍還是圣火令武功都手到擒來，成為武林的百科全書。

盡管如此，阿爾法元（AlphaZero）距離一個(gè)真正的通用目標(biāo)，獨(dú)立AI，還有一定的距離。國際象棋和將棋是比較容易的測試，因?yàn)樗鼈儽葒搴唵?。而像“星際爭霸2”這樣復(fù)雜的視頻游戲完全是另一碼事，更不用說散步、藝術(shù)或抽象思維等模糊的概念了。

另外還有速度的問題：雖然用來學(xué)習(xí)棋盤游戲的時(shí)間少于24小時(shí)，但對于AI需要現(xiàn)場適應(yīng)的情況，速度太慢。DeepMind報(bào)告也說，訓(xùn)練該軟件使用了5064臺(tái)功能強(qiáng)大的定制機(jī)器學(xué)習(xí)處理器（被稱為TPU）。（簡直野蠻暴力）

但仍然不可否認(rèn)，這是人工智能邁出的重要一步。

在大數(shù)據(jù)文摘后臺(tái)回復(fù)“alpha”，下載DeepMind最新論文

論文地址 https:///pdf/1712.01815.pdf （還未經(jīng)過peer review）

回憶人工智能的歷史，很多人的印象都是一堆“各類技能”冠軍——井字棋、跳棋和國際象棋。幾十年來，研究人員已經(jīng)研制了一系列超級(jí)專業(yè)的程序，在越來越高難度的游戲中擊敗人類。近期在圍棋上，Deepmind的阿爾法狗也超越了人類。但是，這些人造冠軍們的共同弱點(diǎn)是——都只能玩某一種精心設(shè)計(jì)的游戲。而人類即使在某些技能上輸了，在精通多種技藝這一點(diǎn)上，仍然完爆人工智能。

近日，DeepMind官方宣布了第一個(gè)多技能的AI棋類游戲冠軍程序。當(dāng)?shù)貢r(shí)間周二晚，Deepmind發(fā)布的一篇論文描述了一款名為AlphaZero的軟件，它可以在三種具有挑戰(zhàn)性的游戲中自學(xué)，表現(xiàn)超越人類：國際象棋，圍棋或?qū)⑵澹ㄒ喾Q日本象棋）。

DeepMind在文章中描述了AlphaZero的學(xué)習(xí)過程。人類不再是國際象棋，圍棋和將棋中最好的選手，所以AlphaZero就用最好的專業(yè)人工選手（計(jì)算機(jī)程序Stockfish、Elmo、AlphaGo Zero）進(jìn)行測試。這個(gè)新程序很快就打敗了這三個(gè)人工棋手：

只用了4個(gè)小時(shí)成為了世界級(jí)的國際象棋冠軍；用2個(gè)小時(shí)在將棋上達(dá)到世界級(jí)水平；只花了8小時(shí)戰(zhàn)勝DeepMind引以為傲、也是之前已知最好的圍棋選手AlphaGo Zero。

圖：經(jīng)過70萬步訓(xùn)練的AlphaZero。它的對手是國際象棋的2016TCEC世界冠軍程序Stockfish，將棋的2017CSA世界冠軍程序Elmo，和大家都知道的AlphaGo Zero。每一手棋雙方只有1秒的反應(yīng)時(shí)間。

DeepMind也表示，新程序AlphaZero模仿AlphaGo Zero，通過同樣的自我對練機(jī)制學(xué)習(xí)。AlphaZero核心的算法是它的升級(jí)版本，能夠搜索更廣泛的可能策略以適應(yīng)不同的游戲。

AlphaZero可以從頭開始學(xué)習(xí)三個(gè)游戲中的每一個(gè)，盡管它需要按照每個(gè)游戲的規(guī)則進(jìn)行編程。該程序通過與自己對練提高技能成為專家，嘗試不同的玩法來發(fā)現(xiàn)獲勝的途徑。

圖：人類常用的國際象棋的12種開局方式解析

AlphaZero還沒有辦法學(xué)會(huì)同時(shí)參加三場比賽。但是，一個(gè)程序?qū)W習(xí)三種不同的復(fù)雜游戲，能達(dá)到如此高的水平，還是驚人的，因?yàn)锳I系統(tǒng)——包括那些可以“學(xué)習(xí)”的——通常是非常專業(yè)的，需要經(jīng)歷磨練來解決特定的問題。即使是最好的人工智能系統(tǒng)也不能在兩個(gè)問題之間進(jìn)行泛化——因此，許多專家認(rèn)為機(jī)器要取代人還有很長一段路要走。

AlphaZero可能是AI系統(tǒng)走向非專門化的一小步。紐約大學(xué)教授Julian Togelius在周二發(fā)布的推文中指出，真正泛化的AI還道阻且長，但稱DeepMind的論文“非常出色”。

圖：國際象棋和將棋中，AlphaZero每一手棋的思考時(shí)間，和相應(yīng)的模型表現(xiàn)（Elo）

而DeepMind的這一研究進(jìn)展對于業(yè)界來說也非常重要。更靈活的機(jī)器學(xué)習(xí)軟件可以幫助谷歌加速在業(yè)務(wù)內(nèi)部擴(kuò)展人工智能技術(shù)。DeepMind最新發(fā)明中的技術(shù)也可能幫助團(tuán)隊(duì)挑戰(zhàn)視頻游戲“星際爭霸”（StarCraft），后者已經(jīng)成為它的下一個(gè)目標(biāo)。一個(gè)流行的商業(yè)視頻游戲似乎沒有正式而抽象的棋盤游戲那么令人生畏。但“星際爭霸”被認(rèn)為復(fù)雜度更高，因?yàn)樗鞣N變量和特征的安排自由度更大，玩家必須預(yù)見對手不可見的行為。

相比可以學(xué)習(xí)三個(gè)以上的棋盤游戲，并能解決各種空間，常識(shí)，邏輯，藝術(shù)和社會(huì)難題的人腦，AlphaZero的智力水平仍然有限。

DeepMind論文中顯示，AlphaZero在三種游戲中使用了同樣的算法設(shè)置、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)。訓(xùn)練過程包括70萬步（4096大小的mini-batch），從隨機(jī)生成的參數(shù)開始，使用了5000臺(tái)TPU生成自對抗的棋局，接著使用64臺(tái)TPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

一共5064臺(tái)TPU！文摘菌不得不感慨“何以解憂，唯有暴富”。

相較于阿爾法狗元（AlphaGo Zero）用到的64臺(tái)GPU和19臺(tái)CPU，AlphaZero的算力可謂得到了指數(shù)級(jí)提升。算法的訓(xùn)練時(shí)間也從阿爾法狗元的“幾天”提升到了現(xiàn)在的“8小時(shí)”。

回頭看看戰(zhàn)勝了李世石和柯潔的驚天動(dòng)地的阿爾法狗，已經(jīng)顯得像原始人了。它用到了1920臺(tái)CPU和280臺(tái)GPU，需要訓(xùn)練幾個(gè)月。

人工智能的發(fā)展，有3個(gè)驅(qū)動(dòng)力——數(shù)據(jù)、算法、算力。神經(jīng)網(wǎng)絡(luò)的“左右互搏”在數(shù)據(jù)和算法上做出了突破，而谷歌的TPU計(jì)算資源支持更是AlphaZero致勝的秘訣之一。

從10月底圍棋超人阿爾法狗元的誕生，到12月進(jìn)化成三種棋類超人阿爾法元，不過只用了短短一個(gè)多月的時(shí)間。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：葉老師YP > 《AI的歷史》

舉報(bào)/認(rèn)領(lǐng)