【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

简介: 【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs
  • 论文题目:Deep Recurrent Q-Learning for Partially Observable MDPs


  这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。

所解决的问题?

  如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

20200213161241325.png

  主要就是对DQN做一个改进,变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果,DQN中一般取4帧图像数据,对序贯状态的割裂程度比较厉害,往往很难考虑到很久之前的状态对现在的影响,而有些问题却又得考虑周全。

20200213120752213.png

所采用的方法?

  作者采用HochreiterSchmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

  其网络结构如下所示:

20200213162219746.png

  由于网络里面有LSTM,作者主要考虑了两种更新方式:Bootstrapped Sequential UpdatesBootstrapped Random Updates

  • Bootstrapped Sequential Updates:每次更新一个Episode,从头到尾,整个序列LSTM走完。
  • Bootstrapped Random Updates:从Episode中随机抽取一个片段出来更新。

  这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西,而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式,期望它具有更强的泛化能力。

取得的效果?

  部分可观测环境:在每个timestep,游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果,一个最好的和一个最差的。

2020021317370572.png

  作者还提出了一个问题:直接在MDP框架下训练的强化学习算法,能否直接泛化到POMDP上面呢?实验结果如下所示:

20200213174405803.png

  从上述结果可以看出,DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

所出版信息?作者信息?

  这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校(University of Texas at Austin)的博士,目前是微软的高级研究员。

20200213095833381.jpg


参考链接

  作者也不是这篇文章的思想创始人,早在文献12007Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文,但是是用在Policy Gradient的方法下,并且DRQN还结合了卷积神经网络一起训练,避免了手工提取特征。

  文献2:在2001年的时候,Bakkercartpole任务下实验了,LSTM解决POMDP是要比RNN要好的。

文献

  1. Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
  2. Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称:深度学习与先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
机器学习/深度学习 算法 API
论文笔记之:Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind   Abstract    主流的 Q-learning 算法过高的估计在特定条件下的动作值。
|
5月前
|
机器学习/深度学习 传感器 自然语言处理
Deep Learning
【6月更文挑战第7天】
37 2
|
机器学习/深度学习 算法 决策智能
【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning
【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning
107 0
|
机器学习/深度学习 资源调度 算法
【RLchina第四讲】Model-Based Reinforcement Learning(上)
【RLchina第四讲】Model-Based Reinforcement Learning(上)
645 0
|
机器学习/深度学习 算法
【RLchina第四讲】Model-Based Reinforcement Learning(下)
【RLchina第四讲】Model-Based Reinforcement Learning(下)
173 0
|
机器学习/深度学习 人工智能 算法
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
120 0
|
机器学习/深度学习 编解码 算法
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
116 0
|
机器学习/深度学习 传感器 算法
【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
|
机器学习/深度学习 存储 自然语言处理
Deep learning
三巨头从机器学习谈起,指出传统机器学习的不足,总览深度学习理论、模型,给出了深度学习的发展历史,以及DL中最重要的算法和理论。
146 0
|
决策智能
论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search
Collaborative Deep Reinforcement Learning for Joint Object Search   CVPR 2017 Motivation:   传统的 bottom-up object region proposals 的方法,由于提取了较多的 proposal,导致后续计算必须依赖于抢的计算能力,如 GPU 等。