【NIPS 2018】循环World模型促进策略演变-阿里云开发者社区

【NIPS 2018】循环World模型促进策略演变

2023-08-03 86

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【NIPS 2018】循环World模型促进策略演变

论文题目：Recurrent World Models Facilitate Policy Evolution

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数p ( z ) p(z)p(z) (混合高斯模型做的)。RNN建模表示为P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1∣at,zt,ht)，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量，对上一帧隐变量的预测，以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的)，然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息，只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取，然后基于这个抽取的特征再用于训练得到policy，好处在于做了特征提取之后，观测的有效信息比较多，特征比较明显，那当然再做policy的学习会更快。

取得的效果？

基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息？作者信息？

David Ha谷歌大脑成员，主要研究机器智能。

其它参考链接

官方网页介绍：https://worldmodels.github.io/

【NIPS 2018】循环World模型促进策略演变

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

其它参考链接

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【NIPS 2018】循环World模型促进策略演变

所解决的问题？

背景

所采用的方法？

取得的效果？

所出版信息？作者信息？

其它参考链接

热门文章

最新文章

相关课程

相关电子书

相关实验场景