小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

DeepMind最新論文:強(qiáng)化學(xué)習(xí)“足以”達(dá)到通用人工智能

 學(xué)術(shù)頭條 2021-06-16

撰稿:XT 排版:王落塵

編審:寇建超

從 1956 年達(dá)特茅斯會(huì)議首次定義人工智能(AI)至今,人工智能已經(jīng)經(jīng)歷了 60 多年的發(fā)展歷程,計(jì)算機(jī)領(lǐng)域的科學(xué)家們?nèi)〉昧艘淮斡忠淮蔚母锩赃M(jìn)步,從機(jī)器學(xué)習(xí)、深度學(xué)習(xí)到強(qiáng)化學(xué)習(xí),科學(xué)家們?cè)O(shè)計(jì)開發(fā)出了許多復(fù)雜的人工智能機(jī)制和技術(shù),來復(fù)制人類視覺、語言、推理、運(yùn)動(dòng)技能和其他與智能生命相關(guān)的能力。

盡管這些努力使得人工智能系統(tǒng)能夠在有限的環(huán)境中有效地解決一些特定的問題,但目前還沒有開發(fā)出像人類和動(dòng)物一樣 “會(huì)思考的機(jī)器” ,“通用人工智能(AGI)” 時(shí)代尚未到來,想要讓機(jī)器完全模擬人類進(jìn)行自主學(xué)習(xí)、模式識(shí)別、想象創(chuàng)造等活動(dòng)看起來遙不可及。

盡管一些樂觀主義者認(rèn)為通用人工智能離我們不到十年,但一項(xiàng)針對(duì)機(jī)器學(xué)習(xí)專家的大型調(diào)查表明,如果存在通用人工智能,那我們可能要到 2040 年左右才能擁有它。

近日,來自 DeepMind 的科學(xué)家在提交給同行評(píng)議的期刊《人工智能》(Artificial Intelligence)上的一篇題為 “Reward is enough” 的論文中認(rèn)為,人工智能及其相關(guān)能力不是通過制定和解決復(fù)雜問題而產(chǎn)生的,而是通過堅(jiān)持一個(gè)簡(jiǎn)單而強(qiáng)大的原則:獎(jiǎng)勵(lì)最大化。

(來源:ScienceDirect

該研究由 DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 領(lǐng)銜,研究靈感源于他們對(duì)自然智能的進(jìn)化研究以及人工智能的最新成就,在撰寫論文時(shí)仍處于預(yù)證明階段。研究人員認(rèn)為,獎(jiǎng)勵(lì)最大化和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)表現(xiàn)出與智力相關(guān)的能力行為。由此,他們得出結(jié)論,強(qiáng)化學(xué)習(xí)是基于獎(jiǎng)勵(lì)最大化的人工智能分支,可以推動(dòng)通用人工智能的發(fā)展。

“獎(jiǎng)勵(lì)最大化” 的人工智能實(shí)現(xiàn)途徑

創(chuàng)建人工智能的一種常見方法就是在計(jì)算機(jī)中嘗試復(fù)制智能行為的元素。例如,我們對(duì)哺乳動(dòng)物視覺系統(tǒng)的理解催生了各種人工智能系統(tǒng),來實(shí)現(xiàn)對(duì)圖像進(jìn)行分類、定位照片中的對(duì)象、定義對(duì)象之間的邊界等等。同樣,我們對(duì)語言的理解有助于開發(fā)各種自然語言處理系統(tǒng),例如回答問題、文本生成和機(jī)器翻譯。

這些都是狹義人工智能的實(shí)例,這些系統(tǒng)旨在執(zhí)行特定任務(wù),而不是具有一般解決問題的能力。一些科學(xué)家認(rèn)為,組裝多個(gè)狹義的人工智能模塊會(huì)產(chǎn)生更高的智能系統(tǒng)。例如,我們可以擁有一個(gè)軟件系統(tǒng),在單獨(dú)的計(jì)算機(jī)視覺、語音處理、NLP 和電機(jī)控制模塊之間進(jìn)行協(xié)調(diào),以解決需要多種技能的復(fù)雜問題。

相比之下,通用人工智能有時(shí)也被稱為人類級(jí)別的人工智能,它更像是《星球大戰(zhàn)》中的 C-3PO,因?yàn)樗梢岳斫馍舷挛?、潛臺(tái)詞和社會(huì)線索,甚至被認(rèn)為可能完全超過人類。

(來源:pixabay)

Deep Mind 的研究人員提出的另一種創(chuàng)建人工智能的方法:重新創(chuàng)建產(chǎn)生自然智能的簡(jiǎn)單而有效的規(guī)則。為什么自然界中的的動(dòng)物和人類會(huì)表現(xiàn)出豐富多樣的智能行為?Silver 等人指出,可能是由于每一種能力都源于對(duì)一個(gè)目標(biāo)的追求,而這個(gè)目標(biāo)是專門為激發(fā)這種能力而設(shè)計(jì)的。為此,該研究設(shè)計(jì)了一個(gè)替代假設(shè):最大化獎(jiǎng)勵(lì)的一般目標(biāo)足以驅(qū)動(dòng)表現(xiàn)出自然和人工智能研究的大部分(盡管不是全部)能力的行為。

這種假設(shè)基本上是遵守達(dá)爾文的生物進(jìn)化論。從科學(xué)的角度分析,在我們周圍看到的復(fù)雜有機(jī)體中,并沒有自上而下的智能設(shè)計(jì)。數(shù)十億年的自然選擇和隨機(jī)變異過濾了生命形式,使其適合生存和繁殖,能夠更好地應(yīng)對(duì)環(huán)境中的挑戰(zhàn)和情況的生物設(shè)法生存和繁殖。其余的都被淘汰了。

這種簡(jiǎn)單而有效的機(jī)制導(dǎo)致了具有各種感知、導(dǎo)航、改變環(huán)境和相互交流的技能和能力的生物去進(jìn)化。

圖 | “獎(jiǎng)勵(lì)就足夠” 的假設(shè),假定智力及其相關(guān)能力可以被理解為在其環(huán)境中行動(dòng)的主體促進(jìn)獎(jiǎng)勵(lì)的最大化

研究人員在論文中寫道:“動(dòng)物和人類面臨的自然世界,以及人工代理未來面臨的環(huán)境,本質(zhì)上都是如此復(fù)雜,以至于它們需要復(fù)雜的能力才能在這些環(huán)境中生存下來。因此,以獎(jiǎng)勵(lì)最大化來衡量的成功需要各種與智力相關(guān)的能力。在這樣的環(huán)境中,任何使獎(jiǎng)勵(lì)最大化的行為都必須表現(xiàn)出這些能力。從這個(gè)意義上說,獎(jiǎng)勵(lì)最大化的一般目標(biāo)包含許多甚至可能的所有智能目標(biāo)?!?/span>

例如,考慮一只松鼠,它為了尋求減少饑餓的獎(jiǎng)勵(lì)。一方面,它的感官和運(yùn)動(dòng)技能幫助它在有食物時(shí)定位和收集堅(jiān)果。但是,當(dāng)食物變得稀缺時(shí),一只只去尋找食物的松鼠必然會(huì)餓死。這就是為什么它也有計(jì)劃技能和記憶來緩存堅(jiān)果并在冬天恢復(fù)它們。松鼠具有社交技能和知識(shí),可以確保其他動(dòng)物不會(huì)偷吃它的堅(jiān)果。如果你放大來看,饑餓最小化可能是 “活下去” 的一個(gè)子目標(biāo),這還需要一些技能,例如發(fā)現(xiàn)和躲避危險(xiǎn)動(dòng)物、保護(hù)自己免受環(huán)境威脅以及尋找季節(jié)性變化的更好棲息地。

研究人員寫道:“當(dāng)與智力相關(guān)的能力作為獎(jiǎng)勵(lì)最大化的單一目標(biāo)的解決方案出現(xiàn)時(shí),這實(shí)際上可能提供了一個(gè)更深入的理解,因?yàn)樗忉屃藶槭裁催@種能力會(huì)出現(xiàn)。相反,當(dāng)每一種能力被理解為其自身專門目標(biāo)的解決方案時(shí),為了關(guān)注該能力的作用,為什么的問題就被繞開了?!?/span>

研究人員認(rèn)為,在可能的獎(jiǎng)勵(lì)最大化方法中,最通用和可擴(kuò)展的方法是智能體通過試錯(cuò)及與環(huán)境的交互來學(xué)習(xí)這樣做。

通過 “獎(jiǎng)勵(lì)最大化” 發(fā)展能力

在這篇論文中,研究人員列舉了一些高級(jí)示例,來說明 “在為許多可能的獎(jiǎng)勵(lì)信號(hào)最大化服務(wù)中,智能和相關(guān)能力將如何隱含地出現(xiàn),對(duì)應(yīng)于自然或人工智能可能指向的許多實(shí)用的目標(biāo)?!?/span>

在知識(shí)和學(xué)習(xí)方面,研究人員將知識(shí)定義為代理人的內(nèi)部信息,包含代理人選擇行動(dòng)、預(yù)測(cè)累積獎(jiǎng)勵(lì)或預(yù)測(cè)未來觀察的特征,這些知識(shí)有先天具備的,也有后天學(xué)習(xí)而來的知識(shí)。獎(jiǎng)勵(lì)和環(huán)境也塑造了動(dòng)物與生俱來的知識(shí)。例如,由獅子和獵豹等掠食性動(dòng)物統(tǒng)治的敵對(duì)棲息地會(huì)獎(jiǎng)勵(lì)反芻動(dòng)物,它們自出生以來就具有逃避威脅的先天知識(shí)。同時(shí),動(dòng)物也因其學(xué)習(xí)棲息地特定知識(shí)的能力而獲得獎(jiǎng)勵(lì),例如在哪里可以找到食物和住所。

通過列舉生物世界的學(xué)習(xí),說明環(huán)境可能同時(shí)需要先天和后天的知識(shí),獎(jiǎng)勵(lì)最大化的代理將在需要時(shí),通過自然代理的進(jìn)化和人工代理的設(shè)計(jì)包含前者,并通過學(xué)習(xí)獲得后者。在更豐富和更長(zhǎng)久的環(huán)境中,需求的平衡越來越向?qū)W習(xí)知識(shí)轉(zhuǎn)移。

(來源:VentureBeat)

在感知方面,動(dòng)物的感官技能服務(wù)于在復(fù)雜環(huán)境中生存的需要。對(duì)象識(shí)別使動(dòng)物能夠檢測(cè)食物、獵物、朋友和威脅,或找到路徑、庇護(hù)所和棲息地;圖像分割使他們能夠分辨不同對(duì)象之間的差異,并避免致命錯(cuò)誤,例如跑下懸崖或從樹枝上掉下來;聽覺有助于發(fā)現(xiàn)動(dòng)物在偽裝時(shí)看不到或找不到獵物的威脅;觸覺、味覺和嗅覺也給動(dòng)物帶來優(yōu)勢(shì),使其對(duì)棲息地有更豐富的感官體驗(yàn),在危險(xiǎn)的環(huán)境中獲得更大的生存機(jī)會(huì)。

于是,研究人員假設(shè)感知可以被理解為服務(wù)于獎(jiǎng)勵(lì)的最大化。從獎(jiǎng)勵(lì)最大化而不是監(jiān)督學(xué)習(xí)的角度考慮感知,最終可能會(huì)支持更大范圍的感知行為,包括具有挑戰(zhàn)性和現(xiàn)實(shí)形式的感知能力。

在社會(huì)智能方面,研究人員假設(shè)社會(huì)智能可以被理解為在包含其他代理人的環(huán)境中,從一個(gè)代理人的角度最大化累積獎(jiǎng)勵(lì)來實(shí)施,并推斷出如果一個(gè)環(huán)境需要社會(huì)智能,獎(jiǎng)勵(lì)最大化將產(chǎn)生社會(huì)智能。

在語言理解方面,研究人員假設(shè)語言能力的全部豐富性,包括所有這些更廣泛的能力,產(chǎn)生于對(duì)獎(jiǎng)勵(lì)的追求,而理解和產(chǎn)生語言的壓力可以來自許多獎(jiǎng)勵(lì)增加的好處。例如,一個(gè)代理人能夠理解 "危險(xiǎn)" 警告,那么它就可以預(yù)測(cè)并避免負(fù)面的獎(jiǎng)勵(lì);如果一個(gè)代理可以產(chǎn)生 "取" 的命令,可能會(huì)導(dǎo)致環(huán)境將一個(gè)物體移到代理的附近。這些獎(jiǎng)勵(lì)的好處可能最終會(huì)導(dǎo)致代理人具備各種復(fù)雜的語言技能。

它是一個(gè)代理人根據(jù)復(fù)雜的觀察序列(如接收句子)產(chǎn)生復(fù)雜的行動(dòng)序列(如說出句子),以影響環(huán)境中的其他代理人并積累更大的獎(jiǎng)勵(lì)的能力的一個(gè)實(shí)例。理解和產(chǎn)生語言的壓力可以來自許多獎(jiǎng)勵(lì)增加的好處。

研究人員還討論了泛化、模仿以及一般智能的獎(jiǎng)勵(lì)驅(qū)動(dòng)基礎(chǔ),將其描述為 “在單一、復(fù)雜的環(huán)境中使單一獎(jiǎng)勵(lì)最大化 "。在這項(xiàng)研究中,研究人員在自然智能和通用人工智能之間進(jìn)行了類比:“動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣的,它可能需要一種靈活的能力來實(shí)現(xiàn)各種各樣的子目標(biāo)(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎(jiǎng)勵(lì)(例如饑餓或繁殖)。類似地,如果一個(gè)人工智能代理的經(jīng)驗(yàn)流足夠豐富,那么許多目標(biāo)(例如電池壽命或生存)可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力,因此獎(jiǎng)勵(lì)的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能。

“獎(jiǎng)勵(lì)最大化” 的強(qiáng)化學(xué)習(xí) 

按照人工智能之父 John McCarthy 的說法,“智力是在世界范圍內(nèi)實(shí)現(xiàn)目標(biāo)的能力的計(jì)算部分”,而后來發(fā)展起來的強(qiáng)化學(xué)習(xí)將尋求目標(biāo)的智能問題正式化,對(duì)應(yīng)于不同智能形式的獎(jiǎng)勵(lì)信號(hào),在不同的環(huán)境中如何實(shí)現(xiàn)最大化。

強(qiáng)化學(xué)習(xí)是人工智能算法的一個(gè)特殊分支,由三個(gè)關(guān)鍵要素組成:環(huán)境(Environment)、代理(Agent)和獎(jiǎng)勵(lì)(Reward)。通過執(zhí)行操作,代理會(huì)改變自己和環(huán)境的狀態(tài)。根據(jù)這些動(dòng)作對(duì)代理必須實(shí)現(xiàn)的目標(biāo)的影響程度,對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。在許多強(qiáng)化學(xué)習(xí)問題中,智能體沒有環(huán)境的初始知識(shí),并從隨機(jī)動(dòng)作開始。根據(jù)收到的反饋,代理學(xué)習(xí)調(diào)整其行為并制定最大化其獎(jiǎng)勵(lì)的策略。

(來源:TechTalks) 

在強(qiáng)化學(xué)習(xí)研究領(lǐng)域的一個(gè)著名的例子:敲鑼訓(xùn)猴。馴獸師在訓(xùn)練猴子時(shí),以敲鑼為信號(hào)來訓(xùn)練猴子站立敬禮,每當(dāng)猴子很好地完成站立敬禮的動(dòng)作,就會(huì)獲得一定的食物獎(jiǎng)勵(lì);如果沒有完成或者完成的不對(duì),不僅不會(huì)得到食物獎(jiǎng)勵(lì),甚至?xí)玫揭活D鞭子抽打。由于聽到敲鑼后站立敬禮是猴子在所處環(huán)境下能夠獲得的最大收益,所以時(shí)間長(zhǎng)了猴子自然在聽到馴獸師敲鑼后,就會(huì)站立敬禮。

強(qiáng)化學(xué)習(xí)就是訓(xùn)練對(duì)象如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。在這篇論文中,DeepMind 的研究人員建議將強(qiáng)化學(xué)習(xí)作為主要算法,它可以復(fù)制自然界中看到的獎(jiǎng)勵(lì)最大化,并最終導(dǎo)致通用人工智能。

研究人員寫道:“如果一個(gè)智能體可以不斷調(diào)整其行為以提高其累積獎(jiǎng)勵(lì),那么其環(huán)境反復(fù)要求的任何能力最終都必須在智能體的行為中產(chǎn)生。” 并補(bǔ)充說,一個(gè)好的強(qiáng)化學(xué)習(xí)代理可以在學(xué)習(xí)過程中獲得表現(xiàn)出感知、語言、社會(huì)智能等的行為,以便在一個(gè)環(huán)境(如人類世界)中實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化,在這個(gè)環(huán)境中,這些能力具有持續(xù)的價(jià)值。

在論文中,研究人員提供了幾個(gè)例子,展示了強(qiáng)化學(xué)習(xí)代理如何能夠在游戲和機(jī)器人環(huán)境中學(xué)習(xí)一般技能。例如,當(dāng)被要求在圍棋比賽中取得最大勝利時(shí),AlphaZero 學(xué)會(huì)了跨越圍棋許多方面的綜合智能。

然而,研究人員強(qiáng)調(diào),一些根本性的挑戰(zhàn)仍未解決,他們并沒有對(duì)強(qiáng)化學(xué)習(xí)代理的樣本效率提供任何理論上的保證。而是猜想,當(dāng)強(qiáng)大的強(qiáng)化學(xué)習(xí)代理被置于復(fù)雜的環(huán)境中時(shí),將在實(shí)踐中產(chǎn)生復(fù)雜的智能表達(dá)。如果這個(gè)猜想是正確的,它將為實(shí)現(xiàn)人工通用智能提供了一條完整的途徑。

強(qiáng)化學(xué)習(xí)以需要大量數(shù)據(jù)而聞名,強(qiáng)化學(xué)習(xí)代理可能需要幾個(gè)世紀(jì)的游戲時(shí)間才能掌握計(jì)算機(jī)游戲。研究人員仍然沒有想出如何創(chuàng)建強(qiáng)化學(xué)習(xí)系統(tǒng)來將他們的學(xué)習(xí)推廣到多個(gè)領(lǐng)域。因此,環(huán)境的微小變化通常需要對(duì)模型進(jìn)行全面的重新訓(xùn)練。

研究人員還承認(rèn),獎(jiǎng)勵(lì)最大化的學(xué)習(xí)機(jī)制是一個(gè)未解決的問題,仍然是強(qiáng)化學(xué)習(xí)中有待進(jìn)一步研究的核心問題。論文拋出了整個(gè)強(qiáng)化學(xué)習(xí)領(lǐng)域研究的一個(gè)核心問題,即如何在一個(gè)實(shí)用的代理中有效地學(xué)習(xí)獎(jiǎng)勵(lì)最大化。

“獎(jiǎng)勵(lì)最大化” 的優(yōu)缺點(diǎn)

加州大學(xué)圣地亞哥分校的神經(jīng)科學(xué)家、哲學(xué)家和名譽(yù)教授帕特里夏?丘奇蘭(Patricia Churchland)將該論文中的想法描述為 “非常仔細(xì)和有見地的解決方案”。

然而,Churchland 也指出了該論文關(guān)于社會(huì)決策的討論中可能存在的缺陷。Churchland 最近寫了一本關(guān)于道德直覺的生物學(xué)起源的書,他認(rèn)為依戀和聯(lián)系是哺乳動(dòng)物和鳥類社會(huì)決策的一個(gè)強(qiáng)大因素,這就是為什么動(dòng)物為了保護(hù)他們的孩子而將自己置于極大的危險(xiǎn)之中。

Churchland 說:“我傾向于將親密關(guān)系以及其他人的關(guān)懷視為自己,也就是 “我和我” 的范圍的延伸。在這種情況下,我認(rèn)為,對(duì)論文假設(shè)進(jìn)行小幅修改以實(shí)現(xiàn)對(duì) “我和我” 的獎(jiǎng)勵(lì)最大化會(huì)非常有效。當(dāng)然,我們?nèi)壕觿?dòng)物都有依戀程度,對(duì)后代超強(qiáng)依戀、對(duì)配偶和親屬非常強(qiáng)依戀,對(duì)朋友和熟人很強(qiáng)依戀等等,依戀類型的強(qiáng)度會(huì)因環(huán)境和發(fā)育階段而異。”

Churchland 表示,這不是一個(gè)主要的批評(píng),并且很可能會(huì)非常優(yōu)雅地融入這個(gè)假設(shè)。Churchland 說:“我對(duì)論文的詳細(xì)程度以及他們考慮可能存在的弱點(diǎn)的仔細(xì)程度印象深刻。我可能也不對(duì),但我傾向于認(rèn)為這是一個(gè)里程碑?!?/span>

針對(duì) “哪一個(gè)通用目標(biāo)可以產(chǎn)生所有形式的智能” 這一問題。研究人員在討論部分提到,在不同的環(huán)境中實(shí)現(xiàn)不同的獎(jiǎng)勵(lì)最大化可能會(huì)導(dǎo)致不同的、強(qiáng)大的智能形式,每一種智能都會(huì)表現(xiàn)出自己令人印象深刻的、但又無法比擬的一系列能力。一個(gè)好的獎(jiǎng)勵(lì)最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。

相比于只有精心構(gòu)建的獎(jiǎng)勵(lì)才有可能誘發(fā)一般的智力,研究人員認(rèn)為人工智能代理智力的出現(xiàn)可能對(duì)獎(jiǎng)勵(lì)信號(hào)的性質(zhì)相當(dāng)穩(wěn)健。此外,他們建議強(qiáng)化學(xué)習(xí)問題也可以轉(zhuǎn)化為一個(gè)概率框架,接近于獎(jiǎng)勵(lì)最大化的目標(biāo)。

(來源:pixabay)

數(shù)據(jù)科學(xué)家 Herbert Roitblat 對(duì)該論文的立場(chǎng)提出了挑戰(zhàn),即簡(jiǎn)單的學(xué)習(xí)機(jī)制和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)與智能相關(guān)的能力。Roitblat 認(rèn)為,論文中提出的理論在現(xiàn)實(shí)生活中實(shí)施時(shí)面臨著一些挑戰(zhàn)。

Roitblat 說 “如果沒有時(shí)間限制,那么試錯(cuò)學(xué)習(xí)可能就足夠了,否則我們就會(huì)遇到無限數(shù)量的猴子在無限長(zhǎng)的時(shí)間內(nèi)打字的問題?!?無限猴子定理指出,一只猴子在無限長(zhǎng)的時(shí)間內(nèi)敲打打字機(jī)上的隨機(jī)鍵,最終可能會(huì)打出任何給定的文本。

Roitblat 在《Algorithms are Not Enough》一書中解釋了為什么所有當(dāng)前包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能算法,都需要仔細(xì)制定人類創(chuàng)建的問題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強(qiáng)化就可以指導(dǎo)其進(jìn)化,但這并不意味著強(qiáng)化就足夠了。同樣,Roitblat 補(bǔ)充說,該論文沒有就如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)、動(dòng)作和其他元素提出任何建議。

Roitblat 說:“強(qiáng)化學(xué)習(xí)假設(shè)智能體具有一組有限的潛在動(dòng)作。已經(jīng)指定了獎(jiǎng)勵(lì)信號(hào)和價(jià)值函數(shù)。換句話說,通用智能的問題恰恰是提供強(qiáng)化學(xué)習(xí)作為先決條件的那些東西。因此,如果機(jī)器學(xué)習(xí)都可以簡(jiǎn)化為某種形式的優(yōu)化,以最大化某些評(píng)估措施,那么強(qiáng)化學(xué)習(xí)肯定是相關(guān)的,但它的解釋性并不強(qiáng)?!?/span>

參考資料:

https://www./science/article/pii/S0004370221000862

https:///2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/

https://www./posts/2021/1/22/google-deepminds-quest-for-artificial-general-intelligence


我的科研生涯——從博士到博導(dǎo)

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多