【NIPS 2018】循环World模型促进策略演变

简介: 【NIPS 2018】循环World模型促进策略演变
  • 论文题目:Recurrent World Models Facilitate Policy Evolution

所解决的问题?

  从world model中学一个policy,并将迁移到real world

背景

  人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。

所采用的方法?

  作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。

  VAE用于压缩信息得到latent vectorRNN用于输出一个概率密度函数p ( z ) p(z)p(z) (混合高斯模型做的)。RNN建模表示为P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1at,zt,ht),具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

  总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

  这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAERNN的训练都可以不需要奖励信息,只给交互数据就可以。

  这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。

取得的效果?

  基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息?作者信息?

  David Ha谷歌大脑成员,主要研究机器智能。

其它参考链接

相关文章
|
8月前
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(下)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
77 0
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
2月前
|
人工智能 自然语言处理 算法
思维链不存在了?纽约大学最新研究:推理步骤可省略
【5月更文挑战第26天】纽约大学研究发现,Transformer模型在处理复杂任务时可能不依赖思维链,而是通过填充符号实现计算。实验显示,填充符号能提升模型在特定任务中的准确率,扩展其表达能力,尤其是在处理嵌套量词问题时。然而,模型有效利用填充符号的学习是个挑战,因填充符号的隐藏层表示不易判断。研究提示,Transformer模型可能通过填充符号并行化解决TC0类问题,但可能使决策过程变得不透明,影响可解释性。该研究为优化语言模型提供了新思路,但也提出了可解释性与计算效率之间平衡的议题。[链接](https://arxiv.org/pdf/2404.15758)
30 1
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
【大模型】解释自我注意力的概念及其在LLM表现中的作用
【5月更文挑战第6天】【大模型】解释自我注意力的概念及其在LLM表现中的作用
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
|
8月前
|
存储 缓存 自然语言处理
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(上)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
116 0
|
8月前
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(中)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
65 0
|
机器学习/深度学习 人工智能 搜索推荐
ML 模型不等于“黑盒”:explainable AI 可解释的人工智能
ML 模型不等于“黑盒”:explainable AI 可解释的人工智能
189 0
ML 模型不等于“黑盒”:explainable AI 可解释的人工智能
|
12月前
|
机器学习/深度学习 存储 人工智能
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数(Scoring Function)设计以及ICL底层机制等原理详解
|
11月前
|
人工智能 自然语言处理 物联网
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题