【原】DeepMind的人工智能現(xiàn)在可以玩全部57款雅達(dá)利游戲，但它還不夠萬(wàn)能

西當(dāng)源 2020-04-05

展開(kāi)全文

最新消息:一種名為Agent57的人工智能已經(jīng)學(xué)會(huì)在Arcade學(xué)習(xí)環(huán)境中玩所有57款雅達(dá)利(Atari)電子游戲，這是一組經(jīng)典游戲，研究人員用它們來(lái)測(cè)試深度學(xué)習(xí)模型的極限。由DeepMind開(kāi)發(fā)的Agent57使用相同的深度強(qiáng)化學(xué)習(xí)算法，即使在以前的人工智能難以應(yīng)付的游戲中，也能達(dá)到超人的水平。能夠?qū)W習(xí)57種不同的任務(wù)使得Agent57比以前的AI更加通用。

游戲里有什么?游戲是測(cè)試人工智能的好方法。它們提供了各種各樣的挑戰(zhàn)，迫使人工智能提出一系列的戰(zhàn)略，但仍然有一個(gè)明確的衡量成功的指標(biāo)——訓(xùn)練的目標(biāo)。但事實(shí)證明，雅達(dá)利的四場(chǎng)比賽尤其難以擊敗。在蒙特祖瑪?shù)摹稄?fù)仇與陷阱》中，AI必須嘗試許多不同的策略，然后才能找到獲勝的策略。在Solaris和Skiing滑雪游戲中，動(dòng)作和獎(jiǎng)勵(lì)之間可能會(huì)有很長(zhǎng)時(shí)間的等待，這讓人工智能很難知道哪些動(dòng)作獲得了最好的回報(bào)。

為了應(yīng)對(duì)這些挑戰(zhàn)，Agent57整合了DeepMind對(duì)其Deep-Q網(wǎng)絡(luò)所做的多項(xiàng)改進(jìn)，這款AI在2012年首次擊敗了幾款雅達(dá)利游戲，包括一種記憶形式，它可以根據(jù)之前在游戲中看到的東西做出決定，以及獎(jiǎng)勵(lì)系統(tǒng)，鼓勵(lì)AI在確定戰(zhàn)略之前更充分地探索自己的選擇。然后，這些不同的技術(shù)由元控制器管理，元控制器在使用特定策略和進(jìn)行更多探索之間進(jìn)行權(quán)衡。

為什么重要:盡管他們?nèi)〉昧顺晒?，我們今天所擁有的最好的深度學(xué)習(xí)模式并不是萬(wàn)能的。大多數(shù)人往往擅長(zhǎng)一件事，而且只擅長(zhǎng)一件事。在深度學(xué)習(xí)中，訓(xùn)練人工智能超越一項(xiàng)以上的任務(wù)是最大的開(kāi)放挑戰(zhàn)之一。學(xué)習(xí)57種不同任務(wù)的能力使得Agent57比以前的游戲AI更加通用，但是，有一點(diǎn)經(jīng)常被忽略，就是它仍然不能一次學(xué)習(xí)玩多個(gè)游戲。Agent57可以學(xué)習(xí)玩57款游戲，但不能同時(shí)學(xué)習(xí)玩57款游戲。它需要為每個(gè)新游戲重新訓(xùn)練，即使它可以使用相同的算法來(lái)做到這一點(diǎn)。在這方面，Agent57與AlphaZero類似，后者是DeepMind的深度強(qiáng)化學(xué)習(xí)算法，可以學(xué)習(xí)下棋、圍棋和射擊——但不是一次全部。對(duì)于人類嬰兒來(lái)說(shuō)容易獲得的學(xué)習(xí)通用性，仍遠(yuǎn)遠(yuǎn)超出了AI的能力范圍。

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：西當(dāng)源 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

發(fā)表

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

【原】DeepMind的人工智能現(xiàn)在可以玩全部57款雅達(dá)利游戲，但它還不夠萬(wàn)能

【原】DeepMind的人工智能現(xiàn)在可以玩全部57款雅達(dá)利游戲，但它還不夠萬(wàn)能