强化学习新路径:基于自监督预测的好奇心驱动探索(Paper+Code)

简介:
本文来自AI新媒体量子位(QbitAI)

最近,来自加州大学伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等人写了一篇题为“基于自监督预测的好奇心驱动探索”的论文,这篇文章提出了一种内在好奇心单元(Intrinsic Curiosity Module),来帮助操作者探索新环境。

论文被收录于8月11号在悉尼举办的ICML 2017上,以下是论文的主要内容:

摘要

在许多真实的场景中,外部环境对操作者的奖励非常少或几乎不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,让操作者去探索未知的新环境,学习一些在以后生活中可能有用的技能。

在这篇文章中,我们基于自监督方法建立了反向动力学模型,训练得到了一个视觉特征的高维空间。在此空间中,我们将操作者预测自身行为可能导致后果的能力,即预测值和真实值之间的误差称为好奇心(curiosity)。

对于图像序列这样的高维连续状态空间,我们的公式非常适用,能绕过直接预测像素的难题,而且选择性地忽略部分不能影响操作者的环境因素。

我们在两个游戏环境中评估所提出的方法:毁灭战士(VizDoom)和超级马里奥兄弟(Super Mario Bros)。

有如下三个大概的研究背景:

1.极少的外部奖励,与外部环境的相互作用远远少于期望值;

2.不输入外部奖励,好奇心促使操作者的探索更有效;

3.推广到未接触过的场景(例如同一游戏的新关卡),从早期经历获得知识的操作者比从头开始探索新地点的操作者学习要快得多。

演示视频

核心创新点

内部好奇心单元:我们提出了内在好奇心单元,来帮助操作者探索。在外部奖励很少或完全不存在的情况下,好奇心能帮助操作者了解新环境。

即使没有任何来自外部环境的奖励下,我们提出的内在好奇心单元也能结合操作者的策略,进行联合学习。模型示意图如下图所示。

相关链接

Paper:

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

GitHub Code:

https://github.com/pathak22/noreward-rl

【完】

本文作者:王小新
原文发布时间:2017-05-17 
相关文章
|
数据采集 数据可视化 前端开发
深入了解埋点分析:Clklog助你优化用户体验
所谓埋点,就是通过在应用程序或网站中插入代码,针对用户行为或事件进行捕获,以收集用户的各种行为数据,比如用户点击了某个按钮、页面访问时间、功能使用频率等。 通过分析这些数据,数据产品经理或数据分析师能够深入理解用户行为,优化用户体验,并根据埋点数据改进产品功能。
深入了解埋点分析:Clklog助你优化用户体验
|
9月前
|
缓存 Ubuntu 网络安全
使用 Docker 快速搭建最新版 Flarum 论坛
本文分享了使用Docker在4核4GB的Ubuntu 20.04云服务器上搭建Flarum轻论坛的经验。通过Nginx-Proxy和ACME伴侣自动配置SSL,并使用Docker Compose部署Flarum及MariaDB容器。关键步骤包括:创建Nginx-Proxy容器、配置Flarum容器及其环境变量、设置桥网络连接以及更新Flarum版本。文中提供了详细的Docker Compose配置示例和必要的环境变量设置,帮助读者顺利搭建并运行Flarum论坛。
|
10月前
|
存储 分布式计算 安全
阿里云服务器经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例介绍与选择参考
在阿里云现在的活动中,可选的云服务器实例规格主要有经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例,虽然阿里云在活动中提供了多种不同规格的云服务器实例,以满足不同用户和应用场景的需求。但是有的用户并不清楚他们的性能如何,应该如何选择。本文将详细介绍阿里云服务器中的经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例的性能、适用场景及选择参考,帮助用户根据自身需求做出合适的选择。
|
11月前
|
缓存 负载均衡 监控
数据库多实例的负载均衡技术深入
【10月更文挑战第23天】数据库多实例负载均衡技术是确保数据库系统高效运行的重要手段。通过合理选择负载均衡策略、实时监控实例状态、不断优化调整,能够实现资源的最优分配和系统性能的提升。在实际应用中,需要根据具体情况灵活运用各种负载均衡技术,并结合其他相关技术,以满足不断变化的业务需求。
|
存储 固态存储 网络性能优化
OpenStack的块存储(Cinder)
【8月更文挑战第24天】
338 2
|
机器学习/深度学习 数据采集 人工智能
AI技术实践:利用机器学习算法预测房价
人工智能(Artificial Intelligence, AI)已经深刻地影响了我们的生活,从智能助手到自动驾驶,AI的应用无处不在。然而,AI不仅仅是一个理论概念,它的实际应用和技术实现同样重要。本文将通过详细的技术实践,带领读者从理论走向实践,详细介绍AI项目的实现过程,包括数据准备、模型选择、训练和优化等环节。
1083 3
|
机器学习/深度学习 人工智能 数据可视化
号称能打败MLP的KAN到底行不行?数学核心原理全面解析
Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。
5337 5
|
XML 监控 安全
OWASP-TOP 10 漏洞概述
OWASP-TOP 10 漏洞是指由开放式Web应用程序安全项目(OWASP)发布的,关于Web应用程序最可能、最常见、最危险的十大安全漏洞的列表。
1006 0
|
编解码 测试技术
AV1编码时间下降,接近使用水平
AV1最初发布时,编码速度缓慢,时间过长,严重影响编码器的可用性。随着不断的优化,其编码时间已经有很大改进,几乎可以使用。
1533 0
AV1编码时间下降,接近使用水平
|
JavaScript IDE 测试技术
Rtsp转Flv在浏览器中播放
【2月更文挑战第5天】本文简单介绍如何间接实现在浏览器中播放rtsp的流,涉及技术点和工具较多,本文仅做功能实现思路的梳理和简单的代码实践,后续整理更深入的实现原理。
1128 1