【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

简介: 【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs
  • 论文题目:Deep Recurrent Q-Learning for Partially Observable MDPs


  这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。

所解决的问题?

  如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

20200213161241325.png

  主要就是对DQN做一个改进,变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果,DQN中一般取4帧图像数据,对序贯状态的割裂程度比较厉害,往往很难考虑到很久之前的状态对现在的影响,而有些问题却又得考虑周全。

20200213120752213.png

所采用的方法?

  作者采用HochreiterSchmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

  其网络结构如下所示:

20200213162219746.png

  由于网络里面有LSTM,作者主要考虑了两种更新方式:Bootstrapped Sequential UpdatesBootstrapped Random Updates

  • Bootstrapped Sequential Updates:每次更新一个Episode,从头到尾,整个序列LSTM走完。
  • Bootstrapped Random Updates:从Episode中随机抽取一个片段出来更新。

  这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西,而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式,期望它具有更强的泛化能力。

取得的效果?

  部分可观测环境:在每个timestep,游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果,一个最好的和一个最差的。

2020021317370572.png

  作者还提出了一个问题:直接在MDP框架下训练的强化学习算法,能否直接泛化到POMDP上面呢?实验结果如下所示:

20200213174405803.png

  从上述结果可以看出,DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

所出版信息?作者信息?

  这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校(University of Texas at Austin)的博士,目前是微软的高级研究员。

20200213095833381.jpg


参考链接

  作者也不是这篇文章的思想创始人,早在文献12007Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文,但是是用在Policy Gradient的方法下,并且DRQN还结合了卷积神经网络一起训练,避免了手工提取特征。

  文献2:在2001年的时候,Bakkercartpole任务下实验了,LSTM解决POMDP是要比RNN要好的。

文献

  1. Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
  2. Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称:深度学习与先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
10月前
|
机器学习/深度学习 传感器 监控
机器学习:强化学习中的探索策略全解析
在机器学习的广阔领域中,强化学习(Reinforcement Learning, RL)无疑是一个充满魅力的子领域。它通过智能体与环境的交互,学习如何在特定的任务中做出最优决策。然而,在这个过程中,探索(exploration)和利用(exploitation)的平衡成为了智能体成功的关键。本文将深入探讨强化学习中的探索策略,包括其重要性、常用方法以及代码示例来论证这些策略的效果。
|
存储 Android开发
解决了一个大家都有可能遇到的奇葩权限问题
解决了一个大家都有可能遇到的奇葩权限问题
解决了一个大家都有可能遇到的奇葩权限问题
|
10月前
|
监控 前端开发 Java
构建高效Java后端与前端交互的定时任务调度系统
通过以上步骤,我们构建了一个高效的Java后端与前端交互的定时任务调度系统。该系统使用Spring Boot作为后端框架,Quartz作为任务调度器,并通过前端界面实现用户交互。此系统可以应用于各种需要定时任务调度的业务场景,如数据同步、报告生成和系统监控等。
411 9
|
存储 PyTorch API
Transformers 4.37 中文文档(十九)(2)
Transformers 4.37 中文文档(十九)
928 1
|
Ubuntu Linux Windows
wsl常用命令大全
WSL(Windows Subsystem for Linux)的常用命令,包括查看帮助、更新WSL、查看和管理Linux发行版、设置默认版本等,以帮助用户更有效地管理和使用WSL环境。
935 1
|
数据可视化 物联网
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
1430 15
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
|
索引
foreach、for in和for of之间区别?
foreach、for in和for of之间区别?
626 0
|
消息中间件 人工智能 Serverless
函数计算FC降价全解析,最高幅度达93%,怎么用才便宜?
今年云栖大会,函数计算3.0全新升级,相对函数计算2.0,3.0版本突出易用性、高弹性,并且可以和更多阿里云服务无缝集成。业内首发神龙 Serverless GPU 架构,冷启动大幅优化,全链路调度延时降低 80%,函数执行性能波动率降低 70%;作为事件驱动的全托管计算服务,足够轻量灵活,让用户以更少的代码,更好、更快地实现业务创新。函数计算 FC 通过大规模的资源池化和调度策略优化实现降本,阶梯定价最高降幅可达 93%。
函数计算FC降价全解析,最高幅度达93%,怎么用才便宜?
|
网络协议 文件存储
如何公网远程连接本地群晖NAS中的WebDAV
如何公网远程连接本地群晖NAS中的WebDAV
1570 0