小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

DeepMind的人工智能現(xiàn)在可以玩全部57款雅達(dá)利游戲,但它還不夠萬(wàn)能

 西當(dāng)源 2020-04-05

最新消息:一種名為Agent57的人工智能已經(jīng)學(xué)會(huì)在Arcade學(xué)習(xí)環(huán)境中玩所有57款雅達(dá)利(Atari)電子游戲,這是一組經(jīng)典游戲,研究人員用它們來(lái)測(cè)試深度學(xué)習(xí)模型的極限。由DeepMind開(kāi)發(fā)的Agent57使用相同的深度強(qiáng)化學(xué)習(xí)算法,即使在以前的人工智能難以應(yīng)付的游戲中,也能達(dá)到超人的水平。能夠?qū)W習(xí)57種不同的任務(wù)使得Agent57比以前的AI更加通用。

游戲里有什么?游戲是測(cè)試人工智能的好方法。它們提供了各種各樣的挑戰(zhàn),迫使人工智能提出一系列的戰(zhàn)略,但仍然有一個(gè)明確的衡量成功的指標(biāo)——訓(xùn)練的目標(biāo)。但事實(shí)證明,雅達(dá)利的四場(chǎng)比賽尤其難以擊敗。在蒙特祖瑪?shù)摹稄?fù)仇與陷阱》中,AI必須嘗試許多不同的策略,然后才能找到獲勝的策略。在SolarisSkiing滑雪游戲中,動(dòng)作和獎(jiǎng)勵(lì)之間可能會(huì)有很長(zhǎng)時(shí)間的等待,這讓人工智能很難知道哪些動(dòng)作獲得了最好的回報(bào)。

為了應(yīng)對(duì)這些挑戰(zhàn),Agent57整合了DeepMind對(duì)其Deep-Q網(wǎng)絡(luò)所做的多項(xiàng)改進(jìn),這款AI2012年首次擊敗了幾款雅達(dá)利游戲,包括一種記憶形式,它可以根據(jù)之前在游戲中看到的東西做出決定,以及獎(jiǎng)勵(lì)系統(tǒng),鼓勵(lì)AI在確定戰(zhàn)略之前更充分地探索自己的選擇。然后,這些不同的技術(shù)由元控制器管理,元控制器在使用特定策略和進(jìn)行更多探索之間進(jìn)行權(quán)衡。

為什么重要:盡管他們?nèi)〉昧顺晒?,我們今天所擁有的最好的深度學(xué)習(xí)模式并不是萬(wàn)能的。大多數(shù)人往往擅長(zhǎng)一件事,而且只擅長(zhǎng)一件事。在深度學(xué)習(xí)中,訓(xùn)練人工智能超越一項(xiàng)以上的任務(wù)是最大的開(kāi)放挑戰(zhàn)之一。學(xué)習(xí)57種不同任務(wù)的能力使得Agent57比以前的游戲AI更加通用,但是,有一點(diǎn)經(jīng)常被忽略,就是它仍然不能一次學(xué)習(xí)玩多個(gè)游戲Agent57可以學(xué)習(xí)玩57款游戲,但不能同時(shí)學(xué)習(xí)57款游戲。它需要為每個(gè)新游戲重新訓(xùn)練,即使它可以使用相同的算法來(lái)做到這一點(diǎn)。在這方面,Agent57AlphaZero類似,后者是DeepMind的深度強(qiáng)化學(xué)習(xí)算法,可以學(xué)習(xí)下棋、圍棋和射擊——但不是一次全部。對(duì)于人類嬰兒來(lái)說(shuō)容易獲得的學(xué)習(xí)通用性,仍遠(yuǎn)遠(yuǎn)超出了AI的能力范圍。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多