- 论文题目:An Optimistic Perspective on Offline Reinforcement Learning
所解决的问题
提出一种基于基于DQN replay dataset
的offline
强化学习算法。用Random Ensemble Mixture (REM)
一种更加鲁棒的Q-Learning
算法增强模型的泛化能力。
背景
深度学习的成功取决于大量地数据集,而强化学习却需要不断与环境交互进行学习。离线强化学习就是考虑能不能从大量地数据中进行学习,这种方法不仅更加贴近现实生活,并且能够通过学习以往的经验,更好地进行归纳总结。
在离线强化学习中,智能体不会接收到在线的环境所给予的反馈信息,需要从一个固定的数据集,泛化到在线交互过程。这种方法就能够使得算法能够学任何policy
收集的数据。
Offline RL
的问题在于当前策略和收集Offline Data
的策略不匹配问题,策略不匹配导致的问题就是采取非相同的动作,并不知道奖励应该给多少。
这篇文章就是想要验证在offline data
上训练智能体,能不能不修正策略之间的分布差异也能够学地很好。
所采用的方法?
提出两个deep Q-learning
算法Ensemble DQN
和REM
,使得其自适应集成,改善稳定性。data的收集来自大量混合策略。
Ensemble-DQN
- Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.
Random Ensemble Mixture (REM)
REM
是将多个Q
值组合成一个Q
值的估计,因此Q
函数近似为(K − 1 )个采样的混合概率,其Loss
函数定义为:
取得的效果?
所出版信息?作者信息?
谷歌最新论文,第一作者Rishabh Agarwal主要研究智能体的鲁棒性,认为深度强化学习可以继承监督学习的方法来改进,本文就是这种思想。
参考资料
- Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning algorithms. arXiv preprint arXiv:1910.01708, 2019a.
- Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.
- Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
- Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020. - 代码链接:https://github.com/google-research/batch_rl