最新消息:一種名為Agent57的人工智能已經(jīng)學(xué)會(huì)在Arcade學(xué)習(xí)環(huán)境中玩所有57款雅達(dá)利(Atari)電子游戲,這是一組經(jīng)典游戲,研究人員用它們來(lái)測(cè)試深度學(xué)習(xí)模型的極限。由DeepMind開(kāi)發(fā)的Agent57使用相同的深度強(qiáng)化學(xué)習(xí)算法,即使在以前的人工智能難以應(yīng)付的游戲中,也能達(dá)到超人的水平。能夠?qū)W習(xí)57種不同的任務(wù)使得Agent57比以前的AI更加通用。 游戲里有什么?游戲是測(cè)試人工智能的好方法。它們提供了各種各樣的挑戰(zhàn),迫使人工智能提出一系列的戰(zhàn)略,但仍然有一個(gè)明確的衡量成功的指標(biāo)——訓(xùn)練的目標(biāo)。但事實(shí)證明,雅達(dá)利的四場(chǎng)比賽尤其難以擊敗。在蒙特祖瑪?shù)摹稄?fù)仇與陷阱》中,AI必須嘗試許多不同的策略,然后才能找到獲勝的策略。在Solaris和Skiing滑雪游戲中,動(dòng)作和獎(jiǎng)勵(lì)之間可能會(huì)有很長(zhǎng)時(shí)間的等待,這讓人工智能很難知道哪些動(dòng)作獲得了最好的回報(bào)。 為了應(yīng)對(duì)這些挑戰(zhàn),Agent57整合了DeepMind對(duì)其Deep-Q網(wǎng)絡(luò)所做的多項(xiàng)改進(jìn),這款AI在2012年首次擊敗了幾款雅達(dá)利游戲,包括一種記憶形式,它可以根據(jù)之前在游戲中看到的東西做出決定,以及獎(jiǎng)勵(lì)系統(tǒng),鼓勵(lì)AI在確定戰(zhàn)略之前更充分地探索自己的選擇。然后,這些不同的技術(shù)由元控制器管理,元控制器在使用特定策略和進(jìn)行更多探索之間進(jìn)行權(quán)衡。 為什么重要:盡管他們?nèi)〉昧顺晒?,我們今天所擁有的最好的深度學(xué)習(xí)模式并不是萬(wàn)能的。大多數(shù)人往往擅長(zhǎng)一件事,而且只擅長(zhǎng)一件事。在深度學(xué)習(xí)中,訓(xùn)練人工智能超越一項(xiàng)以上的任務(wù)是最大的開(kāi)放挑戰(zhàn)之一。學(xué)習(xí)57種不同任務(wù)的能力使得Agent57比以前的游戲AI更加通用,但是,有一點(diǎn)經(jīng)常被忽略,就是它仍然不能一次學(xué)習(xí)玩多個(gè)游戲。Agent57可以學(xué)習(xí)玩57款游戲,但不能同時(shí)學(xué)習(xí)玩57款游戲。它需要為每個(gè)新游戲重新訓(xùn)練,即使它可以使用相同的算法來(lái)做到這一點(diǎn)。在這方面,Agent57與AlphaZero類似,后者是DeepMind的深度強(qiáng)化學(xué)習(xí)算法,可以學(xué)習(xí)下棋、圍棋和射擊——但不是一次全部。對(duì)于人類嬰兒來(lái)說(shuō)容易獲得的學(xué)習(xí)通用性,仍遠(yuǎn)遠(yuǎn)超出了AI的能力范圍。 |
|