【NIPS 2018】循环World模型促进策略演变

简介: 【NIPS 2018】循环World模型促进策略演变
  • 论文题目:Recurrent World Models Facilitate Policy Evolution

所解决的问题?

  从world model中学一个policy,并将迁移到real world

背景

  人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。

所采用的方法?

  作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。

  VAE用于压缩信息得到latent vectorRNN用于输出一个概率密度函数p ( z ) p(z)p(z) (混合高斯模型做的)。RNN建模表示为P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1at,zt,ht),具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

  总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

  这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAERNN的训练都可以不需要奖励信息,只给交互数据就可以。

  这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。

取得的效果?

  基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息?作者信息?

  David Ha谷歌大脑成员,主要研究机器智能。

其它参考链接

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
2月前
|
机器学习/深度学习 传感器 机器人
机器人策略学习的Game Changer?伯克利提出Body Transformer
【9月更文挑战第13天】加州大学伯克利分校的研究团队提出了一种名为Body Transformer(BoT)的创新架构,旨在通过将机器人的物理形态建模为传感器和执行器组成的图,并利用掩码注意力机制汇聚信息,为机器人学习策略提供有效归纳偏置。BoT不仅在模仿学习和强化学习中表现出色,在任务完成、缩放特性及计算效率方面超越传统架构,而且具备更强的稳定性和泛化能力。尽管存在适用范围和计算资源等局限性,BoT仍展示了在实际应用中的巨大潜力。论文详情见:https://arxiv.org/pdf/2408.06316v1
31 6
|
3月前
|
存储 并行计算
小技巧大功效,仅阅读两次提示让循环语言模型超越Transformer++
【8月更文挑战第27天】斯坦福与布法罗大学的研究显示,通过"Just-Read-Twice"(JRT)策略,循环语言模型(RNNs)在多项任务上的表现超越了行业标杆Transformer++模型。JRT策略让RNNs在处理信息时进行两次读取,有效解决长上下文记忆难题,显著提升了性能。实验覆盖FDA、SQUAD等多个任务,均取得明显成效。论文已发布于arXiv。
25 2
|
4月前
|
数据采集 机器学习/深度学习 人工智能
|
3月前
|
机器学习/深度学习 vr&ar
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
6月前
|
人工智能 自然语言处理 算法
思维链不存在了?纽约大学最新研究:推理步骤可省略
【5月更文挑战第26天】纽约大学研究发现,Transformer模型在处理复杂任务时可能不依赖思维链,而是通过填充符号实现计算。实验显示,填充符号能提升模型在特定任务中的准确率,扩展其表达能力,尤其是在处理嵌套量词问题时。然而,模型有效利用填充符号的学习是个挑战,因填充符号的隐藏层表示不易判断。研究提示,Transformer模型可能通过填充符号并行化解决TC0类问题,但可能使决策过程变得不透明,影响可解释性。该研究为优化语言模型提供了新思路,但也提出了可解释性与计算效率之间平衡的议题。[链接](https://arxiv.org/pdf/2404.15758)
57 1
|
数据采集 人工智能 监控
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
141 0
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
139 0
|
机器学习/深度学习 算法 数据挖掘
机器学习(十九)EM:期望最大算法
机器学习(十九)EM:期望最大算法
357 0
机器学习(十九)EM:期望最大算法