谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】

简介: 谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
  • 论文题目:An Optimistic Perspective on Offline Reinforcement Learning

所解决的问题


  提出一种基于基于DQN replay datasetoffline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learning算法增强模型的泛化能力。


背景


  深度学习的成功取决于大量地数据集,而强化学习却需要不断与环境交互进行学习。离线强化学习就是考虑能不能从大量地数据中进行学习,这种方法不仅更加贴近现实生活,并且能够通过学习以往的经验,更好地进行归纳总结。

  在离线强化学习中,智能体不会接收到在线的环境所给予的反馈信息,需要从一个固定的数据集,泛化到在线交互过程。这种方法就能够使得算法能够学任何policy收集的数据。

  Offline RL的问题在于当前策略和收集Offline Data的策略不匹配问题,策略不匹配导致的问题就是采取非相同的动作,并不知道奖励应该给多少。

  这篇文章就是想要验证在offline data上训练智能体,能不能不修正策略之间的分布差异也能够学地很好。


所采用的方法?


  提出两个deep Q-learning算法Ensemble DQNREM,使得其自适应集成,改善稳定性。data的收集来自大量混合策略。


Ensemble-DQN

image.png


  • Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.


Random Ensemble Mixture (REM)


  REM是将多个Q值组合成一个Q值的估计,因此Q函数近似为(K − 1 )个采样的混合概率,其Loss函数定义为:

image.png


20200420081445227.png


取得的效果?


20200420084110971.png


所出版信息?作者信息?

  谷歌最新论文,第一作者Rishabh Agarwal主要研究智能体的鲁棒性,认为深度强化学习可以继承监督学习的方法来改进,本文就是这种思想。

参考资料


  • Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning algorithms. arXiv preprint arXiv:1910.01708, 2019a.
  • Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.
  • Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
  • Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
    Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020.
  • 代码链接https://github.com/google-research/batch_rl
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
斯坦福大学Percy Liang团队推出VideoAgent,一种能生成高质量视频并自我优化的模型。它结合强化学习和监督学习,根据用户反馈和环境变化自动调整,提升视频生成质量和用户体验,但同时也面临模型不稳定性和高资源需求等挑战。
15 6
|
6月前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
383 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
6月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
71 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
78 0
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
333 0
|
机器学习/深度学习 编解码 机器人
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
141 0
|
机器学习/深度学习 算法
信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布
信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布
144 0
|
机器学习/深度学习 算法 数据可视化
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
136 0
|
机器学习/深度学习 敏捷开发 人工智能
CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术
CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术
495 0
下一篇
无影云桌面