DeepMind发布新论文:嘈杂网络让智能体成为游戏大咖

简介:
本文来自AI新媒体量子位(QbitAI)

近日,谷歌DeepMind团队的Meire Fortunato、Mohammad Gheshlaghi Azar、Bilal Piot等12人在ArXiv上发表了一篇新论文,主要探索了嘈杂网络(Noisy Networks, NoisyNet)以及在游戏中应用的表现。

量子位将论文中部分内容整理编译,与大家分享。

论文摘要

本文提出了NoisyNet,一种权重中增加了参数噪声的深度强化学习智能体,也证明了这种智能体策略的诱导随机性可被用来辅助有效探索。在NoisyNet中,噪声参数随着剩余网络权重一起学习梯度下降。

研究人员发现,用NoisyNet替代A3C、DQN、Dueling等算法智能体中的传统启发式探索,在多数Atari游戏中得分更高,一些情况下它也会胜过人类的表现,并且几乎没有额外的计算成本。

游戏大咖

研究人员用Atari的57个游戏对NoisyNet进行测试,并对比A3C、DQN和Dueling三种智能体的NoisyNet变体和基线对比结果。

 三种智能体的NoisyNet变体和基线的表现性能比较

在上面的图中,横轴罗列了57个游戏,纵轴显示了表现性能的增长幅度,而图中能显示出来的最大增长幅度为250%。

值得注意的是,在NoisyNet-A3C变体的表现性能提升最为显著,在四个游戏中的性能提升均大于250%。

将上面的57个游戏的性能表现汇总,可以得出三种智能体的NoisyNet变体的整体数据。

 整体数据图

可以看出,三种变体的性能平均值及中值都大大优于原始基线。

最后,附论文下载地址:

https://arxiv.org/abs/1706.10295

【完】

本文作者:安妮
原文发布时间:2017-07-05
相关文章
|
2月前
|
数据采集 算法 数据挖掘
模块化控制协议(MCP)在网络中增强智能体执行效率的研究
随着Web3技术的迅速发展,去中心化应用和智能体在各种领域的应用逐渐增多。MCP(Modularized Control Protocol,模块化控制协议)作为一种增强智能体执行能力的关键技术,为Web3场景中的智能体提供了更强的灵活性和可扩展性。本文将探讨如何利用MCP技术提升智能体在Web3场景中的执行能力,并通过实例代码展示其实现路径。
149 22
|
5月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
437 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
4月前
|
边缘计算 人工智能 5G
5G引领家庭网络升级:速度、稳定性与智能化的新时代
5G引领家庭网络升级:速度、稳定性与智能化的新时代
278 69
|
5月前
|
边缘计算 安全 算法
阿里云CDN:构建全球化智能加速网络的数字高速公路
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
338 13
|
4月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
141 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
4月前
|
人工智能 运维 算法
AI加持下的网络流量管理:智能调度还是流量黑洞?
AI加持下的网络流量管理:智能调度还是流量黑洞?
135 8
|
6月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
218 63
|
8月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
914 146
|
4月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
651 2
|
5月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
112 8

热门文章

最新文章