小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

完爆阿爾法狗元,DeepMind用5000臺(tái)TPU訓(xùn)練出新算法,1天內(nèi)稱霸3種棋類

 葉老師YP 2017-12-07

作者:姜范波、Aileen、Yawei Xia、龍牧雪、魏子敏


距離阿爾法狗元版本刷屏一個(gè)多月時(shí)間,阿爾法狗又進(jìn)化了,這次不光可以玩圍棋,不再是“狗”了。我一點(diǎn)也不驚訝。


在用阿爾法狗(AlphaGo)和阿爾法狗元(AlphaGo Zero)稱霸圍棋世界后,當(dāng)?shù)貢r(shí)間周二晚,DeepMind的研究組宣布已經(jīng)開發(fā)出一個(gè)更為廣泛的阿爾法元(AlphaZero)系統(tǒng),它可以訓(xùn)練自己在棋盤,將棋和其他規(guī)則化游戲中實(shí)現(xiàn)“超人”技能,所有這些都在一天之內(nèi)完成,并且無需其他干預(yù),戰(zhàn)績斐然:


  • 4個(gè)小時(shí)成為了世界級(jí)的國際象棋冠軍;

  • 2個(gè)小時(shí)在將棋上達(dá)到世界級(jí)水平;

  • 8個(gè)小時(shí)戰(zhàn)勝DeepMind引以為傲的圍棋選手AlphaGo Zero。


這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進(jìn)的場景:


在各路高手的真力激蕩之下打通數(shù)十處玄關(guān),練成了獨(dú)步天下的九陽神功,從此化身武林學(xué)霸。短短幾個(gè)時(shí)辰內(nèi)就練成了第七層乾坤大挪移,無論是太極拳劍還是圣火令武功都手到擒來,成為武林的百科全書。



盡管如此,阿爾法元(AlphaZero)距離一個(gè)真正的通用目標(biāo),獨(dú)立AI,還有一定的距離 。國際象棋和將棋是比較容易的測試,因?yàn)樗鼈儽葒搴唵?。而像“星際爭霸2”這樣復(fù)雜的視頻游戲完全是另一碼事,更不用說散步、藝術(shù)或抽象思維等模糊的概念了。


另外還有速度的問題:雖然用來學(xué)習(xí)棋盤游戲的時(shí)間少于24小時(shí),但對于AI需要現(xiàn)場適應(yīng)的情況,速度太慢。DeepMind報(bào)告也說,訓(xùn)練該軟件使用了5064臺(tái)功能強(qiáng)大的定制機(jī)器學(xué)習(xí)處理器(被稱為TPU)。(簡直野蠻暴力)


但仍然不可否認(rèn),這是人工智能邁出的重要一步。


在大數(shù)據(jù)文摘后臺(tái)回復(fù)“alpha”,下載DeepMind最新論文

論文地址 https:///pdf/1712.01815.pdf (還未經(jīng)過peer review)


回憶人工智能的歷史,很多人的印象都是一堆“各類技能”冠軍——井字棋、跳棋和國際象棋。幾十年來,研究人員已經(jīng)研制了一系列超級(jí)專業(yè)的程序,在越來越高難度的游戲中擊敗人類。近期在圍棋上,Deepmind的阿爾法狗也超越了人類。但是,這些人造冠軍們的共同弱點(diǎn)是——都只能玩某一種精心設(shè)計(jì)的游戲。而人類即使在某些技能上輸了,在精通多種技藝這一點(diǎn)上,仍然完爆人工智能。


近日,DeepMind官方宣布了第一個(gè)多技能的AI棋類游戲冠軍程序。當(dāng)?shù)貢r(shí)間周二晚,Deepmind發(fā)布的一篇論文描述了一款名為AlphaZero的軟件,它可以在三種具有挑戰(zhàn)性的游戲中自學(xué),表現(xiàn)超越人類:國際象棋,圍棋或?qū)⑵澹ㄒ喾Q日本象棋)。


DeepMind在文章中描述了AlphaZero的學(xué)習(xí)過程。人類不再是國際象棋,圍棋和將棋中最好的選手,所以AlphaZero就用最好的專業(yè)人工選手(計(jì)算機(jī)程序Stockfish、Elmo、AlphaGo Zero)進(jìn)行測試。這個(gè)新程序很快就打敗了這三個(gè)人工棋手:


只用了4個(gè)小時(shí)成為了世界級(jí)的國際象棋冠軍;用2個(gè)小時(shí)在將棋上達(dá)到世界級(jí)水平;只花了8小時(shí)戰(zhàn)勝DeepMind引以為傲、也是之前已知最好的圍棋選手AlphaGo Zero。


圖:經(jīng)過70萬步訓(xùn)練的AlphaZero。它的對手是國際象棋的2016TCEC世界冠軍程序Stockfish,將棋的2017CSA世界冠軍程序Elmo,和大家都知道的AlphaGo Zero。每一手棋雙方只有1秒的反應(yīng)時(shí)間。


DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通過同樣的自我對練機(jī)制學(xué)習(xí)。AlphaZero核心的算法是它的升級(jí)版本,能夠搜索更廣泛的可能策略以適應(yīng)不同的游戲。


AlphaZero可以從頭開始學(xué)習(xí)三個(gè)游戲中的每一個(gè),盡管它需要按照每個(gè)游戲的規(guī)則進(jìn)行編程。該程序通過與自己對練提高技能成為專家,嘗試不同的玩法來發(fā)現(xiàn)獲勝的途徑。


圖:人類常用的國際象棋的12種開局方式解析


AlphaZero還沒有辦法學(xué)會(huì)同時(shí)參加三場比賽。但是,一個(gè)程序?qū)W習(xí)三種不同的復(fù)雜游戲,能達(dá)到如此高的水平,還是驚人的,因?yàn)锳I系統(tǒng)——包括那些可以“學(xué)習(xí)”的——通常是非常專業(yè)的,需要經(jīng)歷磨練來解決特定的問題。即使是最好的人工智能系統(tǒng)也不能在兩個(gè)問題之間進(jìn)行泛化——因此,許多專家認(rèn)為機(jī)器要取代人還有很長一段路要走。


AlphaZero可能是AI系統(tǒng)走向非專門化的一小步。紐約大學(xué)教授Julian Togelius在周二發(fā)布的推文中指出,真正泛化的AI還道阻且長,但稱DeepMind的論文“非常出色”。


圖:國際象棋和將棋中,AlphaZero每一手棋的思考時(shí)間,和相應(yīng)的模型表現(xiàn)(Elo)


而DeepMind的這一研究進(jìn)展對于業(yè)界來說也非常重要。更靈活的機(jī)器學(xué)習(xí)軟件可以幫助谷歌加速在業(yè)務(wù)內(nèi)部擴(kuò)展人工智能技術(shù)。DeepMind最新發(fā)明中的技術(shù)也可能幫助團(tuán)隊(duì)挑戰(zhàn)視頻游戲“星際爭霸”(StarCraft),后者已經(jīng)成為它的下一個(gè)目標(biāo)。一個(gè)流行的商業(yè)視頻游戲似乎沒有正式而抽象的棋盤游戲那么令人生畏。但“星際爭霸”被認(rèn)為復(fù)雜度更高,因?yàn)樗鞣N變量和特征的安排自由度更大,玩家必須預(yù)見對手不可見的行為。


相比可以學(xué)習(xí)三個(gè)以上的棋盤游戲,并能解決各種空間,常識(shí),邏輯,藝術(shù)和社會(huì)難題的人腦,AlphaZero的智力水平仍然有限。


DeepMind論文中顯示,AlphaZero在三種游戲中使用了同樣的算法設(shè)置、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)。訓(xùn)練過程包括70萬步(4096大小的mini-batch),從隨機(jī)生成的參數(shù)開始,使用了5000臺(tái)TPU生成自對抗的棋局,接著使用64臺(tái)TPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)。


一共5064臺(tái)TPU!文摘菌不得不感慨“何以解憂,唯有暴富”。

相較于阿爾法狗元(AlphaGo Zero)用到的64臺(tái)GPU和19臺(tái)CPU,AlphaZero的算力可謂得到了指數(shù)級(jí)提升。算法的訓(xùn)練時(shí)間也從阿爾法狗元的“幾天”提升到了現(xiàn)在的“8小時(shí)”。


回頭看看戰(zhàn)勝了李世石和柯潔的驚天動(dòng)地的阿爾法狗,已經(jīng)顯得像原始人了。它用到了1920臺(tái)CPU和280臺(tái)GPU,需要訓(xùn)練幾個(gè)月。


人工智能的發(fā)展,有3個(gè)驅(qū)動(dòng)力——數(shù)據(jù)、算法、算力。神經(jīng)網(wǎng)絡(luò)的“左右互搏”在數(shù)據(jù)和算法上做出了突破,而谷歌的TPU計(jì)算資源支持更是AlphaZero致勝的秘訣之一。


從10月底圍棋超人阿爾法狗元的誕生,到12月進(jìn)化成三種棋類超人阿爾法元,不過只用了短短一個(gè)多月的時(shí)間。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多