DeepMind发布新论文:嘈杂网络让智能体成为游戏大咖

简介:
本文来自AI新媒体量子位(QbitAI)

近日,谷歌DeepMind团队的Meire Fortunato、Mohammad Gheshlaghi Azar、Bilal Piot等12人在ArXiv上发表了一篇新论文,主要探索了嘈杂网络(Noisy Networks, NoisyNet)以及在游戏中应用的表现。

量子位将论文中部分内容整理编译,与大家分享。

论文摘要

本文提出了NoisyNet,一种权重中增加了参数噪声的深度强化学习智能体,也证明了这种智能体策略的诱导随机性可被用来辅助有效探索。在NoisyNet中,噪声参数随着剩余网络权重一起学习梯度下降。

研究人员发现,用NoisyNet替代A3C、DQN、Dueling等算法智能体中的传统启发式探索,在多数Atari游戏中得分更高,一些情况下它也会胜过人类的表现,并且几乎没有额外的计算成本。

游戏大咖

研究人员用Atari的57个游戏对NoisyNet进行测试,并对比A3C、DQN和Dueling三种智能体的NoisyNet变体和基线对比结果。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

 三种智能体的NoisyNet变体和基线的表现性能比较

在上面的图中,横轴罗列了57个游戏,纵轴显示了表现性能的增长幅度,而图中能显示出来的最大增长幅度为250%。

值得注意的是,在NoisyNet-A3C变体的表现性能提升最为显著,在四个游戏中的性能提升均大于250%。

将上面的57个游戏的性能表现汇总,可以得出三种智能体的NoisyNet变体的整体数据。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

 整体数据图

可以看出,三种变体的性能平均值及中值都大大优于原始基线。

最后,附论文下载地址:

https://arxiv.org/abs/1706.10295

【完】

本文作者:安妮
原文发布时间:2017-07-05
相关文章
|
2月前
|
机器学习/深度学习 编解码 计算机视觉
【APFN】从大佬论文中探索如何分析改进金字塔网络
【APFN】从大佬论文中探索如何分析改进金字塔网络
36 0
|
2月前
|
计算机视觉
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
50 0
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
|
3月前
|
安全
Emerson艾默生 DeltaV 网络智能交换机
Emerson艾默生 DeltaV 网络智能交换机
|
3月前
|
前端开发 JavaScript Java
毕业设计论文|基于SSM的网络教学系统设计与实现
毕业设计论文|基于SSM的网络教学系统设计与实现
|
30天前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
13 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
2月前
|
机器学习/深度学习 计算机视觉 Python
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
52 0
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
|
2月前
|
运维 安全 容灾
简单易用的智能云网,阿里云网络持续演进之路
2023年10月31日,杭州·云栖大会,在阿里云网络技术分论坛,阿里云网络产品线负责人祝顺民《Leadership:简单易用的智能云网络——阿里云网络持续演进之路》的主题演讲,全面阐释阿里云飞天洛神云网络的产品思考和能力升级。
391 0
|
2月前
|
运维 负载均衡 安全
回归网络本质需求,提供普惠连接价值 持续打造简单易用的智能云网络
2023年11月25日,北京,在第六届SD-WAN&SASE大会暨云网络大会上,阿里云资深产品总监、阿里云网络产品管理负责人孙成浩受邀做了《打造简单易用的智能云网络——云网络持续演进之路》的主题分享,回顾云网络产业发展,阐释云网络未来演进方向,以及阿里云网络产品服务今年的能力演进。
224 1
|
3月前
|
机器学习/深度学习 网络架构 计算机视觉
CNN经典网络模型之GoogleNet论文解读
GoogleNet,也被称为Inception-v1,是由Google团队在2014年提出的一种深度卷积神经网络架构,专门用于图像分类和特征提取任务。它在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中取得了优异的成绩,引入了"Inception"模块,这是一种多尺度卷积核并行结构,可以增强网络对不同尺度特征的感知能力。
|
3月前
|
SQL XML Java
计算机毕设论文|基于网络超市商品销售管理系统的设计与实现
计算机毕设论文|基于网络超市商品销售管理系统的设计与实现

热门文章

最新文章