DeepMind发布新论文:嘈杂网络让智能体成为游戏大咖

简介:
本文来自AI新媒体量子位(QbitAI)

近日,谷歌DeepMind团队的Meire Fortunato、Mohammad Gheshlaghi Azar、Bilal Piot等12人在ArXiv上发表了一篇新论文,主要探索了嘈杂网络(Noisy Networks, NoisyNet)以及在游戏中应用的表现。

量子位将论文中部分内容整理编译,与大家分享。

论文摘要

本文提出了NoisyNet,一种权重中增加了参数噪声的深度强化学习智能体,也证明了这种智能体策略的诱导随机性可被用来辅助有效探索。在NoisyNet中,噪声参数随着剩余网络权重一起学习梯度下降。

研究人员发现,用NoisyNet替代A3C、DQN、Dueling等算法智能体中的传统启发式探索,在多数Atari游戏中得分更高,一些情况下它也会胜过人类的表现,并且几乎没有额外的计算成本。

游戏大咖

研究人员用Atari的57个游戏对NoisyNet进行测试,并对比A3C、DQN和Dueling三种智能体的NoisyNet变体和基线对比结果。

 三种智能体的NoisyNet变体和基线的表现性能比较

在上面的图中,横轴罗列了57个游戏,纵轴显示了表现性能的增长幅度,而图中能显示出来的最大增长幅度为250%。

值得注意的是,在NoisyNet-A3C变体的表现性能提升最为显著,在四个游戏中的性能提升均大于250%。

将上面的57个游戏的性能表现汇总,可以得出三种智能体的NoisyNet变体的整体数据。

 整体数据图

可以看出,三种变体的性能平均值及中值都大大优于原始基线。

最后,附论文下载地址:

https://arxiv.org/abs/1706.10295

【完】

本文作者:安妮
原文发布时间:2017-07-05
相关文章
|
11月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
1180 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
8月前
|
数据采集 算法 数据挖掘
模块化控制协议(MCP)在网络中增强智能体执行效率的研究
随着Web3技术的迅速发展,去中心化应用和智能体在各种领域的应用逐渐增多。MCP(Modularized Control Protocol,模块化控制协议)作为一种增强智能体执行能力的关键技术,为Web3场景中的智能体提供了更强的灵活性和可扩展性。本文将探讨如何利用MCP技术提升智能体在Web3场景中的执行能力,并通过实例代码展示其实现路径。
685 22
|
6月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
348 10
|
6月前
|
机器学习/深度学习 边缘计算 算法
SEENN: 迈向时间脉冲早退神经网络——论文阅读
SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
348 13
|
6月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
576 1
|
10月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
507 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
431 3
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
1377 146
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
461 63

热门文章

最新文章