谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】

简介: 谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
  • 论文题目:An Optimistic Perspective on Offline Reinforcement Learning

所解决的问题


  提出一种基于基于DQN replay datasetoffline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learning算法增强模型的泛化能力。


背景


  深度学习的成功取决于大量地数据集,而强化学习却需要不断与环境交互进行学习。离线强化学习就是考虑能不能从大量地数据中进行学习,这种方法不仅更加贴近现实生活,并且能够通过学习以往的经验,更好地进行归纳总结。

  在离线强化学习中,智能体不会接收到在线的环境所给予的反馈信息,需要从一个固定的数据集,泛化到在线交互过程。这种方法就能够使得算法能够学任何policy收集的数据。

  Offline RL的问题在于当前策略和收集Offline Data的策略不匹配问题,策略不匹配导致的问题就是采取非相同的动作,并不知道奖励应该给多少。

  这篇文章就是想要验证在offline data上训练智能体,能不能不修正策略之间的分布差异也能够学地很好。


所采用的方法?


  提出两个deep Q-learning算法Ensemble DQNREM,使得其自适应集成,改善稳定性。data的收集来自大量混合策略。


Ensemble-DQN

image.png


  • Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.


Random Ensemble Mixture (REM)


  REM是将多个Q值组合成一个Q值的估计,因此Q函数近似为(K − 1 )个采样的混合概率,其Loss函数定义为:

image.png


20200420081445227.png


取得的效果?


20200420084110971.png


所出版信息?作者信息?

  谷歌最新论文,第一作者Rishabh Agarwal主要研究智能体的鲁棒性,认为深度强化学习可以继承监督学习的方法来改进,本文就是这种思想。

参考资料


  • Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning algorithms. arXiv preprint arXiv:1910.01708, 2019a.
  • Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.
  • Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
  • Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
    Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020.
  • 代码链接https://github.com/google-research/batch_rl
相关文章
|
SQL 关系型数据库 MySQL
MyCat2介绍以及部署和读写分离/分库分表(MyCat2.0)
MyCat2介绍以及部署和读写分离/分库分表(MyCat2.0)
1587 0
|
芯片
STM32外设系列—sg90(舵机)
本文介绍了什么是舵机,舵机的控制原理。以sg90为例,介绍了180°舵机的控制方法,给出了详细的程序设计。最后,介绍了360°舵机的控制方法。
3500 1
STM32外设系列—sg90(舵机)
|
10月前
|
机器学习/深度学习 人工智能 安全
TPAMI:安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
【10月更文挑战第27天】强化学习(RL)在实际应用中展现出巨大潜力,但其安全性问题日益凸显。为此,安全强化学习(SRL)应运而生。近日,来自慕尼黑工业大学、同济大学和加州大学伯克利分校的研究人员在《IEEE模式分析与机器智能汇刊》上发表了一篇综述论文,系统介绍了SRL的方法、理论和应用。SRL主要面临安全性定义模糊、探索与利用平衡以及鲁棒性与可靠性等挑战。研究人员提出了基于约束、基于风险和基于监督学习等多种方法来应对这些挑战。
291 2
|
10月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
11月前
|
Python
蓝桥杯常用函数基础 | 模块及常用内置函数
蓝桥杯常用函数基础 | 模块及常用内置函数
|
机器学习/深度学习 并行计算 PyTorch
ONNX 优化技巧:加速模型推理
【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。
5890 4
|
Java Maven 微服务
【工程】-一文带你使用Gradle构建SpringBoot微服务项目
【工程】-一文带你使用Gradle构建SpringBoot微服务项目
2223 0
【工程】-一文带你使用Gradle构建SpringBoot微服务项目
|
监控 关系型数据库 MySQL
银河麒麟V10 SP3 X86 二进制文件部署 mysql-5.7.29 GTID 半同步复制的双主架构
银河麒麟V10 SP3 X86 二进制文件部署 mysql-5.7.29 GTID 半同步复制的双主架构
787 1
|
消息中间件 NoSQL 算法
第一次凡尔赛,字节跳动3面+腾讯6面一次过,谈谈我的大厂面经
简单来说,就如标题一样,我今天也想要凡尔赛一次,原来大厂的面试也没有想象中的那么难,字节跳动3面+腾讯6面,就这么一次性过了,下面就细细聊聊我的大厂面经吧,希望能够给金三银四要面试的朋友提供一些经验。
|
网络协议 NoSQL Redis
解决 Error starting userland proxy: listen tcp 0.0.0.0:6379: bind: address already in use
解决 Error starting userland proxy: listen tcp 0.0.0.0:6379: bind: address already in use
584 0