僅做學術分享,如有侵權,聯(lián)系刪除 轉載于 :專知 最近,DeepMind 與 UCL 合作推出了一門深度強化學習進階課程,以在線視頻形式呈現(xiàn)。該課程共有 13 節(jié)課,該系列涵蓋了基礎的強化學習和規(guī)劃的序列決策問題,值的關注。 https:///learning-resources/reinforcement-learning-series-2021 該系列課程由DeepMind研究人員教授,與倫敦大學學院(UCL)合作創(chuàng)建,為學生提供現(xiàn)代強化學習的全面介紹。 本課程包括13個講座,該系列涵蓋了基礎的強化學習和規(guī)劃的序列決策問題,在進入更高級的主題和現(xiàn)代深度RL算法之前。它讓學生詳細了解各種主題,包括馬爾可夫決策過程,基于樣本的學習算法(如(雙)Q-learning, SARSA),深度強化學習,等等。它還探索了更高級的主題,如非策略學習、多步驟更新和資格跟蹤,以及在實現(xiàn)深度強化學習算法(如彩虹DQN)時的概念和實際考慮。 DeepMind研究科學家和工程師Hado van Hasselt, Diana Borsa和Matteo Hessel領導了一份針對碩士以上學生的關于RL和深度RL的13部分獨立介紹。 第1講: 強化學習的介紹 研究科學家Hado van Hasselt介紹了強化學習課程,并解釋了強化學習與人工智能的關系。 01:29:52 第二講: 探索與控制 研究科學家哈多·范·哈塞爾特(Hado van Hasselt)探討了為什么學習主體同時平衡探索和利用已獲得的知識很重要。 第三講: MDPs與動態(tài)規(guī)劃 研究科學家Diana Borsa解釋了如何用動態(tài)規(guī)劃解決MDPs,以提取準確的預測和良好的控制策略。 第4講: 動態(tài)規(guī)劃算法的理論基礎 研究科學家Diana Borsa將動態(tài)規(guī)劃算法作為收縮映射進行研究,觀察它們何時以及如何收斂到正確的解。 第五講:無模型預測 研究科學家Hado van Hasselt對無模型預測及其與蒙特卡羅和時域差分算法的關系進行了更深入的研究。 第6講:無模型控制 研究科學家Hado van Hasselt研究了策略改進的預測算法,從而產(chǎn)生了可以從抽樣經(jīng)驗中學習良好行為策略的算法。 第7講:函數(shù)近似 研究科學家Hado van Hasselt解釋了如何將深度學習與強化學習相結合,以實現(xiàn)“深度強化學習”。 第8講: 規(guī)劃與模型 研究工程師Matteo Hessel解釋了如何學習和使用模型,包括像Dyna和蒙特卡羅樹搜索(MCTS)這樣的算法。 第9講: 策略梯度和Actor-Critic方法 研究科學家Hado van Hasselt涵蓋了可以直接學習策略的策略算法和結合價值預測以更有效學習的Actor-Critic算法。 第10講: 近似動態(tài)規(guī)劃 研究科學家Diana Borsa介紹了近似動態(tài)規(guī)劃,探討了我們可以從理論上說的近似算法的性能。 第11講: 多步驟和間歇策略 研究科學家Hado van Hasselt討論了多步和離線策略算法,包括各種減少方差的技術。 第12講: 深度強化學習#1 研究工程師Matteo Hessel討論了深度RL的實際考慮和算法,包括如何使用自區(qū)分(即Jax)實現(xiàn)這些。 第13講: 深度強化學習#2 研究工程師Matteo Hessel介紹了作為輔助任務的一般值函數(shù)和GVFs,并解釋了如何處理算法中的可擴展問題。 ---------?--------- |
|