强化学习新路径:基于自监督预测的好奇心驱动探索(Paper+Code)

简介:
本文来自AI新媒体量子位(QbitAI)

最近,来自加州大学伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等人写了一篇题为“基于自监督预测的好奇心驱动探索”的论文,这篇文章提出了一种内在好奇心单元(Intrinsic Curiosity Module),来帮助操作者探索新环境。

论文被收录于8月11号在悉尼举办的ICML 2017上,以下是论文的主要内容:

摘要

在许多真实的场景中,外部环境对操作者的奖励非常少或几乎不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,让操作者去探索未知的新环境,学习一些在以后生活中可能有用的技能。

在这篇文章中,我们基于自监督方法建立了反向动力学模型,训练得到了一个视觉特征的高维空间。在此空间中,我们将操作者预测自身行为可能导致后果的能力,即预测值和真实值之间的误差称为好奇心(curiosity)。

对于图像序列这样的高维连续状态空间,我们的公式非常适用,能绕过直接预测像素的难题,而且选择性地忽略部分不能影响操作者的环境因素。

我们在两个游戏环境中评估所提出的方法:毁灭战士(VizDoom)和超级马里奥兄弟(Super Mario Bros)。

有如下三个大概的研究背景:

1.极少的外部奖励,与外部环境的相互作用远远少于期望值;

2.不输入外部奖励,好奇心促使操作者的探索更有效;

3.推广到未接触过的场景(例如同一游戏的新关卡),从早期经历获得知识的操作者比从头开始探索新地点的操作者学习要快得多。

演示视频

核心创新点

内部好奇心单元:我们提出了内在好奇心单元,来帮助操作者探索。在外部奖励很少或完全不存在的情况下,好奇心能帮助操作者了解新环境。

即使没有任何来自外部环境的奖励下,我们提出的内在好奇心单元也能结合操作者的策略,进行联合学习。模型示意图如下图所示。

相关链接

Paper:

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

GitHub Code:

https://github.com/pathak22/noreward-rl

【完】

本文作者:王小新
原文发布时间:2017-05-17 
相关文章
|
12月前
|
机器学习/深度学习 人工智能 数据可视化
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
2407 1
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
|
11月前
|
网络协议 网络安全 网络架构
开发者急盼!Cisco Packet Tracer超详细下载安装教程,附中文版插件使用步骤!
Cisco Packet Tracer是思科推出的专业路由器模拟器,适用于学习IOS配置、故障排查及网络拓扑构建。支持多种协议(STP、OSPF等),含无线功能与安全设备。本文提供下载链接、安装教程及高级功能介绍,如复杂网络仿真、可视化调试、自动化脚本和行业场景模拟等,助你高效学习网络技术并启用中文语言包。
6686 17
开发者急盼!Cisco Packet Tracer超详细下载安装教程,附中文版插件使用步骤!
|
Linux Docker Windows
最新可用Docker国内镜像源加速列表
本列表为科研工作者提供可用的Docker镜像网站,帮助网络不佳用户加速访问。内容包括多个国内主流Docker Hub镜像加速站,支持多种系统配置方法,如Ubuntu、macOS和Windows。提供详细使用教程和配置命令,适用于科研及开发环境。列表持续更新,建议收藏使用。
4798 3
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
13340 46
|
缓存 Ubuntu 网络安全
使用 Docker 快速搭建最新版 Flarum 论坛
本文分享了使用Docker在4核4GB的Ubuntu 20.04云服务器上搭建Flarum轻论坛的经验。通过Nginx-Proxy和ACME伴侣自动配置SSL,并使用Docker Compose部署Flarum及MariaDB容器。关键步骤包括:创建Nginx-Proxy容器、配置Flarum容器及其环境变量、设置桥网络连接以及更新Flarum版本。文中提供了详细的Docker Compose配置示例和必要的环境变量设置,帮助读者顺利搭建并运行Flarum论坛。
|
敏捷开发 人工智能 API
如何快速部署大模型接口管理和分发系统:One-API
One API 是一个开源的接口管理与分发系统,支持多种大模型平台如 OpenAI、Google PaLM 2、百度文心一言等。通过统一接口访问不同大模型服务,简化工作流程并提高效率。适用于多模型集成项目、开发代理服务、教育研究及快速原型制作等多种场景。阿里云计算巢提供了快速部署方案,简化了部署过程。
1747 5
|
存储 固态存储 网络性能优化
OpenStack的块存储(Cinder)
【8月更文挑战第24天】
445 2
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
1971 57
|
编解码 测试技术
AV1编码时间下降,接近使用水平
AV1最初发布时,编码速度缓慢,时间过长,严重影响编码器的可用性。随着不断的优化,其编码时间已经有很大改进,几乎可以使用。
1787 0
AV1编码时间下降,接近使用水平

热门文章

最新文章