【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs-阿里云开发者社区

【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

2023-08-03 99

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

论文题目：Deep Recurrent Q-Learning for Partially Observable MDPs

这篇论文最开始是15年提出来的，但最新的修订版本是17年的，下文所有内容都以17年版本为主。

论文链接：https://arxiv.org/abs/1507.06527

所解决的问题？

如题目中所述，作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

主要就是对DQN做一个改进，变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果，DQN中一般取4帧图像数据，对序贯状态的割裂程度比较厉害，往往很难考虑到很久之前的状态对现在的影响，而有些问题却又得考虑周全。

所采用的方法？

作者采用Hochreiter 和 Schmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

其网络结构如下所示：

由于网络里面有LSTM，作者主要考虑了两种更新方式：Bootstrapped Sequential Updates和Bootstrapped Random Updates。

Bootstrapped Sequential Updates：每次更新一个Episode，从头到尾，整个序列LSTM走完。
Bootstrapped Random Updates：从Episode中随机抽取一个片段出来更新。

这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西，而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式，期望它具有更强的泛化能力。

取得的效果？

部分可观测环境：在每个timestep，游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果，一个最好的和一个最差的。

作者还提出了一个问题：直接在MDP框架下训练的强化学习算法，能否直接泛化到POMDP上面呢？实验结果如下所示：

从上述结果可以看出，DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

所出版信息？作者信息？

这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校（University of Texas at Austin）的博士，目前是微软的高级研究员。

参考链接

作者也不是这篇文章的思想创始人，早在文献1：2007年Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文，但是是用在Policy Gradient的方法下，并且DRQN还结合了卷积神经网络一起训练，避免了手工提取特征。

文献2：在2001年的时候，Bakker在cartpole任务下实验了，LSTM解决POMDP是要比RNN要好的。

文献

Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称：深度学习与先进智能决策

微信公众号ID：MultiAgent1024

公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

所解决的问题？

所采用的方法？

取得的效果？

所出版信息？作者信息？

参考链接

文献

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

所解决的问题？

所采用的方法？

取得的效果？

所出版信息？作者信息？

参考链接

文献

热门文章

最新文章

相关电子书