- 论文题目:Dream to Control:Learning Behaviors by Latent Imagination
所解决的问题?
先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer
,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。
背景
强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。
深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。
通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon
的最大奖励来实现规划,像planet
那样,虽然palnet
这种无梯度的方式能够较鲁棒地去减少model-bias
,但是并没有去提供对未来长期的期望规划。
所采用的方法?
作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic
算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。
主要步骤可以分为三大部分:
- 学习动作模型和值模型预测隐藏状态空间中的轨迹
trajectories
。
在这里还需要注意作者所提出来的这个新型的actor-critic
方法:
- actor model
动作模型输出的是一个tanh-transformed Gaussian
,
上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。
- 基于所学的动作模型与真实环境交互,收集新的数据。
取得的效果?
在DeepMind Control Suite
上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。
- 学习一个值函数模型能够使得
dreamer
更加鲁棒。
- 与基于模型和无模型算法对比结果:
所出版信息?作者信息?
Danijar Hafner
,多伦多大学是一个博士生,师从Jimmy Ba
和Geoffrey Hinton
。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。