【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination-阿里云开发者社区

【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

2023-08-05 69

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

先学一个环境模型，所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了，作者提出了一种方法，dreamer，在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

强化学习是需要学习环境的表征的，或者称之为对于环境的理解，从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

深度学习所做的表征就是在提取有效信息，因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划，往往能够支持更高效的方式去做规划，或者并行规划。

通常的强化学习方法是学习一个参数化的策略，去最大化期望奖励，或者通过在线规划的方式，去学习一个固定horizon的最大奖励来实现规划，像planet那样，虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias，但是并没有去提供对未来长期的期望规划。

作者提出了一种基于梯度的，在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习，所以能够获得多步的累计奖励，进行多步长期的学习规划。

主要步骤可以分为三大部分：

在这里还需要注意作者所提出来的这个新型的actor-critic方法：

动作模型输出的是一个tanh-transformed Gaussian，

上述这个奖励模型就是单纯的奖励累计，并没有考虑对未来的期望收益，这种奖励可以不用值函数。

在DeepMind Control Suite上，对于同一个问题，使用相同的参数，在数据效率，计算时间，和最终性能上都超越了之前的基于模型的和无模型的方法。

Danijar Hafner，多伦多大学是一个博士生，师从Jimmy Ba和Geoffrey Hinton。主要研究复杂环境中人类的思考法则，目前在研究基于模型的强化学习和无监督学习方向。