【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination-阿里云开发者社区

【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

2023-08-05 149

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

论文题目：Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

先学一个环境模型，所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了，作者提出了一种方法，dreamer，在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

强化学习是需要学习环境的表征的，或者称之为对于环境的理解，从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

深度学习所做的表征就是在提取有效信息，因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划，往往能够支持更高效的方式去做规划，或者并行规划。

通常的强化学习方法是学习一个参数化的策略，去最大化期望奖励，或者通过在线规划的方式，去学习一个固定horizon的最大奖励来实现规划，像planet那样，虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias，但是并没有去提供对未来长期的期望规划。

所采用的方法？

作者提出了一种基于梯度的，在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习，所以能够获得多步的累计奖励，进行多步长期的学习规划。

主要步骤可以分为三大部分：

学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories。

在这里还需要注意作者所提出来的这个新型的actor-critic方法：

actor model

动作模型输出的是一个tanh-transformed Gaussian，

上述这个奖励模型就是单纯的奖励累计，并没有考虑对未来的期望收益，这种奖励可以不用值函数。

基于所学的动作模型与真实环境交互，收集新的数据。

取得的效果？

在DeepMind Control Suite上，对于同一个问题，使用相同的参数，在数据效率，计算时间，和最终性能上都超越了之前的基于模型的和无模型的方法。

学习一个值函数模型能够使得dreamer更加鲁棒。

与基于模型和无模型算法对比结果：

所出版信息？作者信息？

Danijar Hafner，多伦多大学是一个博士生，师从Jimmy Ba和Geoffrey Hinton。主要研究复杂环境中人类的思考法则，目前在研究基于模型的强化学习和无监督学习方向。

【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

热门文章

最新文章

相关课程

相关电子书