強化學習之分類與重點paper 3

強化學習是目前熱門的研究方向。對不同強化學習的方法與paper進行分類有助于我們進一步了解針對不同的應用場景,如何使用合適的強化學習方法。本文將對強化學習進行分類并列出對應的paper。

5. Memory系列

算法名稱:MFEC
論文標題:Model-Free Episodic Control
發(fā)表會議:Arxiv
論文鏈接:https://arxiv.org/abs/1606.04460
當前谷歌學術引用次數(shù):138


算法名稱:NEC
論文標題:Neural Episodic Control
發(fā)表會議:ICML, 2017
論文鏈接:https://arxiv.org/abs/1703.01988
當前谷歌學術引用次數(shù):171


算法名稱:Neural Map
論文標題:Neural Map: Structured Memory for Deep Reinforcement Learning
發(fā)表會議:ICLR, 2018
論文鏈接:https://arxiv.org/abs/1702.08360
當前谷歌學術引用次數(shù):173


算法名稱:MERLIN
論文標題:Unsupervised Predictive Memory in a Goal-Directed Agent
發(fā)表會議:Arxiv
論文鏈接:https://arxiv.org/abs/1803.10760
當前谷歌學術引用次數(shù):108


算法名稱:RMC
論文標題:Relational Recurrent Neural Networks
發(fā)表會議:ICLR, 2018
論文鏈接:https://arxiv.org/abs/1806.01822
當前谷歌學術引用次數(shù):121


6. Model-Based RL系列

a. Model is Learned

算法名稱:I2A
論文標題:Imagination-Augmented Agents for Deep Reinforcement Learning
發(fā)表會議:NIPS, 2017
論文鏈接:https://arxiv.org/abs/1707.06203
當前谷歌學術引用次數(shù):182


算法名稱:MBMF
論文標題:Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
發(fā)表會議:ICRA, 2018
論文鏈接:https://arxiv.org/abs/1708.02596
當前谷歌學術引用次數(shù):503


算法名稱:MVE
論文標題:Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning
發(fā)表會議:Arxiv
論文鏈接:https://arxiv.org/abs/1803.00101
當前谷歌學術引用次數(shù):109


算法名稱:STEVE
論文標題:Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion
發(fā)表會議:NIPS, 2018
論文鏈接:https://arxiv.org/abs/1807.01675
當前谷歌學術引用次數(shù):127


算法名稱:ME-TRPO
論文標題:Model-Ensemble Trust-Region Policy Optimization
發(fā)表會議:ICLR, 2018
論文鏈接:https://openreview.net/forum?id=SJJinbWRZ&noteId=SJJinbWRZ
當前谷歌學術引用次數(shù):195


算法名稱:MB-MPO
論文標題:Model-Based Reinforcement Learning via Meta-Policy Optimization
發(fā)表會議:Conference on Robot Learning, 2018
論文鏈接:https://arxiv.org/abs/1809.05214
當前谷歌學術引用次數(shù):108


算法名稱:MB-MPO
論文標題:Recurrent World Models Facilitate Policy Evolution
發(fā)表會議:NIPS, 2018
論文鏈接:https://arxiv.org/abs/1809.01999
當前谷歌學術引用次數(shù):316


b. Model is Learned

算法名稱:AlphaZero
論文標題:Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
發(fā)表會議:Science, 2018
論文鏈接:https://arxiv.org/abs/1712.01815
當前谷歌學術引用次數(shù):971


算法名稱:ExIt
論文標題:Thinking Fast and Slow with Deep Learning and Tree Search
發(fā)表會議:NIPS, 2017
論文鏈接:https://arxiv.org/abs/1705.08439
當前谷歌學術引用次數(shù):174

參考
https://spinningup.openai.com/en/latest/

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 強化學習是目前熱門的研究方向。對不同強化學習的方法與paper進行分類有助于我們進一步了解針對不同的應用場景,如何...
    GanD閱讀 1,250評論 2 11
  • 強化學習是目前熱門的研究方向。對不同強化學習的方法與paper進行分類有助于我們進一步了解針對不同的應用場景,如何...
    GanD閱讀 784評論 0 14
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉(zhuǎn)變要...
    余生動聽閱讀 10,918評論 0 11
  • 彩排完,天已黑
    劉凱書法閱讀 4,501評論 1 3
  • 表情是什么,我認為表情就是表現(xiàn)出來的情緒。表情可以傳達很多信息。高興了當然就笑了,難過就哭了。兩者是相互影響密不可...
    Persistenc_6aea閱讀 129,943評論 2 7

友情鏈接更多精彩內(nèi)容