强化学习新路径:基于自监督预测的好奇心驱动探索(Paper+Code)

简介:
本文来自AI新媒体量子位(QbitAI)

最近,来自加州大学伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等人写了一篇题为“基于自监督预测的好奇心驱动探索”的论文,这篇文章提出了一种内在好奇心单元(Intrinsic Curiosity Module),来帮助操作者探索新环境。

论文被收录于8月11号在悉尼举办的ICML 2017上,以下是论文的主要内容:

摘要

在许多真实的场景中,外部环境对操作者的奖励非常少或几乎不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,让操作者去探索未知的新环境,学习一些在以后生活中可能有用的技能。

在这篇文章中,我们基于自监督方法建立了反向动力学模型,训练得到了一个视觉特征的高维空间。在此空间中,我们将操作者预测自身行为可能导致后果的能力,即预测值和真实值之间的误差称为好奇心(curiosity)。

对于图像序列这样的高维连续状态空间,我们的公式非常适用,能绕过直接预测像素的难题,而且选择性地忽略部分不能影响操作者的环境因素。

我们在两个游戏环境中评估所提出的方法:毁灭战士(VizDoom)和超级马里奥兄弟(Super Mario Bros)。

有如下三个大概的研究背景:

1.极少的外部奖励,与外部环境的相互作用远远少于期望值;

2.不输入外部奖励,好奇心促使操作者的探索更有效;

3.推广到未接触过的场景(例如同一游戏的新关卡),从早期经历获得知识的操作者比从头开始探索新地点的操作者学习要快得多。

演示视频

核心创新点

内部好奇心单元:我们提出了内在好奇心单元,来帮助操作者探索。在外部奖励很少或完全不存在的情况下,好奇心能帮助操作者了解新环境。

即使没有任何来自外部环境的奖励下,我们提出的内在好奇心单元也能结合操作者的策略,进行联合学习。模型示意图如下图所示。

相关链接

Paper:

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

GitHub Code:

https://github.com/pathak22/noreward-rl

【完】

本文作者:王小新
原文发布时间:2017-05-17 
相关文章
|
4月前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
51 1
|
5月前
|
机器学习/深度学习 vr&ar
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
|
6月前
|
机器学习/深度学习 数据采集 搜索推荐
打开黑盒神经网络!港大推出全新会说话的推荐系统大模型XRec,从黑盒预测到可解释
【7月更文挑战第2天】港大研发XRec模型,将可解释性引入推荐系统。XRec结合大型语言模型的语义理解与协同过滤,生成推荐的文本解释,提升透明度。该模型无关设计允许与各类推荐系统配合,增强用户体验。然而,计算资源需求高、数据质量和用户理解能力可能影响其效果。[查看论文](https://arxiv.org/pdf/2406.02377)**
80 11
|
7月前
|
机器学习/深度学习 JSON 测试技术
CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型
在3D医学图像分割领域,尽管出现了多种新架构和方法,但大多未能超越2018年nnU-Net基准。研究发现,许多新方法的优越性未经严格验证,揭示了验证方法的不严谨性。作者通过系统基准测试评估了CNN、Transformer和Mamba等方法,强调了配置和硬件资源的重要性,并更新了nnU-Net基线以适应不同条件。论文呼吁加强科学验证,以确保真实性能提升。通过nnU-Net的变体和新方法的比较,显示经典CNN方法在某些情况下仍优于理论上的先进方法。研究提供了新的标准化基线模型,以促进更严谨的性能评估。
187 0
|
8月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
188 1
|
机器学习/深度学习 编解码 测试技术
Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
139 0
|
机器学习/深度学习 数据可视化 自动驾驶
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
127 0
|
编解码 PyTorch 算法框架/工具
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
545 0
|
机器学习/深度学习 存储 人工智能
详解DQN训练技巧!带你回到深度强化学习「梦开始的地方」
详解DQN训练技巧!带你回到深度强化学习「梦开始的地方」
304 0
|
机器学习/深度学习 数据处理
机器学习——PM2.5预测白话
本项目仅用于参考,提供思路和想法并非标准答案!请谨慎抄袭!
428 0
机器学习——PM2.5预测白话