【NIPS 2018】循环World模型促进策略演变

简介: 【NIPS 2018】循环World模型促进策略演变
  • 论文题目:Recurrent World Models Facilitate Policy Evolution

所解决的问题?

  从world model中学一个policy,并将迁移到real world

背景

  人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。

所采用的方法?

  作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。

  VAE用于压缩信息得到latent vectorRNN用于输出一个概率密度函数p ( z ) p(z)p(z) (混合高斯模型做的)。RNN建模表示为P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1at,zt,ht),具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

  总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

  这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAERNN的训练都可以不需要奖励信息,只给交互数据就可以。

  这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。

取得的效果?

  基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息?作者信息?

  David Ha谷歌大脑成员,主要研究机器智能。

其它参考链接

相关文章
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,阿里云百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
4169 0
|
消息中间件 Kafka
Kafka【问题 03】Connection to node -1 (/IP:9092) could not be established. Broker may not be available.
Kafka【问题 03】Connection to node -1 (/IP:9092) could not be established. Broker may not be available.
1657 0
|
机器学习/深度学习 人工智能 数据处理
AI计算机视觉笔记六:mediapipe测试
MediaPipe是由Google Research开发并开源的多媒体机器学习框架,已被集成到YouTube、Google Lens等重要产品中。该框架支持多种功能,如物体检测、自拍分割、头发分割、人脸检测、手部检测及运动追踪等。本文档将指导你通过Python环境搭建与测试MediaPipe,包括创建虚拟环境、安装依赖库,并进行手指骨骼识别测试。具体步骤涵盖环境配置、摄像头数据处理及结果显示。
为什么用了代理ip访问网站还是被限制了
为什么用了代理ip访问网站还是被限制了
708 0
|
存储 Oracle JavaScript
300万数据导入导出优化方案,从80s优化到8s(实测)
300万数据导入导出优化方案,从80s优化到8s(实测)
300万数据导入导出优化方案,从80s优化到8s(实测)
|
应用服务中间件 Linux nginx
阿里云服务器搭建Nginx+rtmp推流服务器
阿里云服务器搭建Nginx+rtmp推流服务器
1715 0
阿里云服务器搭建Nginx+rtmp推流服务器
|
算法
《Drools7.0.0.Final规则引擎教程》第4章 global全局变量
《Drools7.0.0.Final规则引擎教程》第4章 global全局变量
529 0
|
5天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。