【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination

简介: 【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination
  • 论文题目:Dream to Control:Learning Behaviors by Latent Imagination


所解决的问题?


  先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。


背景


  强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

  深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。

  通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias,但是并没有去提供对未来长期的期望规划。


所采用的方法?


  作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。

  主要步骤可以分为三大部分:

image.png

  1. 学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories

image.png

 在这里还需要注意作者所提出来的这个新型的actor-critic方法:

  • actor model

  动作模型输出的是一个tanh-transformed Gaussian

image.png

上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。

image.png

  1. 基于所学的动作模型与真实环境交互,收集新的数据。

取得的效果?

  在DeepMind Control Suite上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。

  1. 学习一个值函数模型能够使得dreamer更加鲁棒。

  1. 与基于模型和无模型算法对比结果:

所出版信息?作者信息?

  Danijar Hafner,多伦多大学是一个博士生,师从Jimmy BaGeoffrey Hinton。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。

相关文章
|
4月前
|
机器学习/深度学习 编解码 自然语言处理
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation
|
9月前
|
算法 Go
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
|
9月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
94 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
|
9月前
|
机器学习/深度学习 自然语言处理 算法
Multimedia Event Extraction From News With a Unified Contrastive Learning Framework论文解读
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
110 0
|
机器学习/深度学习 传感器 数据挖掘
Review on the Recent Welding Research with Application of CNN-Based Deep Learning
Guo等人16)将CNN应用于线管制造过程中的电阻焊,提出了一种正常焊缝与缺陷焊缝的分类模型,准确率达到99.01%。
68 0
|
机器学习/深度学习 存储 传感器
Automated defect inspection system for metal surfaces based on deep learning and data augmentation
简述:卷积变分自动编码器(CVAE)生成特定的图像,再使用基于深度CNN的缺陷分类算法进行分类。在生成足够的数据来训练基于深度学习的分类模型之后,使用生成的数据来训练分类模型。
100 0
《NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE》电子版地址
NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE
71 0
《NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE》电子版地址
|
机器学习/深度学习 算法 数据挖掘
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis
|
算法 数据挖掘 TensorFlow
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
Re3:读论文 PGE A Representation Learning Framework for Property Graphs
|
机器学习/深度学习 搜索推荐
【推荐系统论文精读系列】(十七)--Content-Aware Collaborative Music Recommendation Using Pre-trained Neural Networks
虽然内容是我们音乐收听喜好的基础,但音乐推荐的领先性能是通过基于协作过滤的方法实现的,这种方法利用了用户收听历史中的相似模式,而不是歌曲的音频内容。与此同时,协同过滤有一个众所周知的“冷启动”问题,也就是说,它无法处理没有人听过的新歌。将内容信息整合到协作过滤方法的努力在许多非音乐应用中都取得了成功,比如科学文章推荐。受相关工作的启发,我们将语义标签信息训练成一个神经网络作为内容模型,并将其作为协作过滤模型的先决条件。这样的系统仍然允许用户监听数据“为自己说话”。在百万歌曲数据集上进行了测试,结果表明该系统比协同过滤方法有更好的效果,并且在冷启动情况下具有良好的性能。
222 0
【推荐系统论文精读系列】(十七)--Content-Aware Collaborative Music Recommendation Using Pre-trained Neural Networks