【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination

简介: 【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination
  • 论文题目:Dream to Control:Learning Behaviors by Latent Imagination


所解决的问题?


  先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。


背景


  强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

  深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。

  通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias,但是并没有去提供对未来长期的期望规划。


所采用的方法?


  作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。

  主要步骤可以分为三大部分:

image.png

  1. 学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories

image.png

 在这里还需要注意作者所提出来的这个新型的actor-critic方法:

  • actor model

  动作模型输出的是一个tanh-transformed Gaussian

image.png

上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。

image.png

  1. 基于所学的动作模型与真实环境交互,收集新的数据。

取得的效果?

  在DeepMind Control Suite上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。

  1. 学习一个值函数模型能够使得dreamer更加鲁棒。

  1. 与基于模型和无模型算法对比结果:

所出版信息?作者信息?

  Danijar Hafner,多伦多大学是一个博士生,师从Jimmy BaGeoffrey Hinton。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。

相关文章
|
1月前
|
机器学习/深度学习 编解码 算法
论文精度笔记(二):《Deep Learning based Face Liveness Detection in Videos 》
论文提出了基于深度学习的面部欺骗检测技术,使用LRF-ELM和CNN两种模型,在NUAA和CASIA数据库上进行实验,发现LRF-ELM在检测活体面部方面更为准确。
27 1
论文精度笔记(二):《Deep Learning based Face Liveness Detection in Videos 》
|
6月前
|
机器学习/深度学习 算法 图形学
【论文泛读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
【论文泛读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
|
机器学习/深度学习 存储 人工智能
大语言模型的预训练[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning、Training strategy详解
大语言模型的预训练[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning、Training strategy详解
大语言模型的预训练[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning、Training strategy详解
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
174 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
|
机器学习/深度学习 算法
【RLchina第四讲】Model-Based Reinforcement Learning(下)
【RLchina第四讲】Model-Based Reinforcement Learning(下)
183 0
|
机器学习/深度学习 资源调度 算法
【RLchina第四讲】Model-Based Reinforcement Learning(上)
【RLchina第四讲】Model-Based Reinforcement Learning(上)
681 0
|
算法 Go
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
141 0
|
机器学习/深度学习 编解码
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记(二)
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记(二)
124 0
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记(二)