星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题

多智能体强化学习 (MARL) 是一个具有挑战性的问题,它不仅需要识别每个智能体的策略改进方向,而且还需要将单个智能体的策略更新联合起来,以提高整体性能。最近,这一问题得到初步解决,有研究人员引入了集中训练分散执行 (CTDE) 的方法,使智能体在训练阶段可以访问全局信息。然而,这些方法无法涵盖多智能体交互的全部复杂性。

事实上,其中一些方法还被证明是失败的。为了解决这个问题,有人提出多智能体优势分解定理。在此基础上,HATRPO 和 HAPPO 算法被推导出来。然而,这些方法也存在局限性,这些方法仍然依赖于精心设计的最大化目标。

近年来,序列模型(SM)在自然语言处理(NLP)领域取得了实质性进展。如 GPT 系列、BERT 在广泛的下游任务上表现出色,并且在小样本泛化任务上取得了较强的性能。

由于序列模型与语言的序列特性自然契合,因此可用于语言任务,但是序列方法不仅限于 NLP 任务,而是一种广泛适用的通用基础模型。例如,在计算机视觉 (CV) 中,可以将图像分割成子图并将它们按序列排列,就好像它们是 NLP 任务中的 token 一样 。近期比较出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

随着 Transformer 等网络架构的出现,序列建模技术也引起了 RL 社区的极大关注,这促进了一系列基于 Transformer 架构的离线 RL 开发。这些方法在解决一些最基本的 RL 训练问题方面显示出了巨大的潜力。

尽管这些方法取得了显著的成功,但没有一种方法被设计用来建模多智能体系统中最困难 (也是 MARL 独有的) 的方面——智能体之间的交互。事实上,如果简单地赋予所有智能体一个 Transformer 策略,并对其进行单独训练,这仍然不能保证能提高 MARL 联合性能。因此,虽然有大量强大的序列模型可用,但 MARL 并没有真正利用序列模型性能优势。

如何用序列模型解决 MARL 问题?来自上海交通大学、Digital Brain Lab、牛津大学等的研究者提出一种新型多智能体 Transformer(MAT,Multi-Agent Transformer)架构,该架构可以有效地将协作 MARL 问题转化为序列模型问题,其任务是将智能体的观测序列映射到智能体的最优动作序列。

本文的目标是在 MARL 和 SM 之间建立桥梁,以便为 MARL 释放现代序列模型的建模能力。MAT 的核心是编码器 - 解码器架构,它利用多智能体优势分解定理,将联合策略搜索问题转化为序列决策过程,这样多智能体问题就会表现出线性时间复杂度,最重要的是,这样做可以保证 MAT 单调性能提升。与 Decision Transformer 等先前技术需要预先收集的离线数据不同,MAT 以在线策略方式通过来自环境的在线试验和错误进行训练。



为了验证 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基准上进行了广泛的实验。结果表明,与 MAPPO 和 HAPPO 等强基线相比,MAT 具有更好的性能和数据效率。此外,该研究还证明了无论智能体的数量如何变化,MAT 在没见过的任务上表现较好,可是说是一个优秀的小样本学习者。

背景知识

在本节中,研究者首先介绍了协作 MARL 问题公式和多智能体优势分解定理,这是本文的基石。然后,他们回顾了现有的与 MAT 相关的 MARL 方法,最后引出了 Transformer。

传统多智能体学习范式(左)和多智能体序列决策范式(右)的对比。
问题公式


协作 MARL 问题通常由离散的部分可观察马尔可夫决策过程(Dec-POMDPs)来建模。

多智能体优势分解定理

智能体通过 Q_π(o, a)和 V_π(o)来评估行动和观察的值,定义如下。


定理 1(多智能体优势分解):令 i_1:n 为智能体的排列。如下公式始终成立,无需进一步假设。


重要的是,定理 1 提供了一种用于指导如何选择渐进式改进行动的直觉。

现有 MARL 方法

研究者总结了目前两种 SOTA MARL 算法,它们都构建在近端策略优化(Proximal Policy Optimization, PPO)之上。PPO 是一种以简洁性和性能稳定性闻名的 RL 方法。

多智能体近端策略优化(MAPPO)是首个将 PPO 应用于 MARL 中的最直接方法。


异构智能体近端策略优化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以实现具有单调提升保证的多智能体信任域学习。


Transformer 模型

基于定理 (1) 中描述的序列属性以及 HAPPO 背后的原理,现在可以直观地考虑用 Transformer 模型来实现多智能体信任域学习。通过将一个智能体团队视作一个序列,Transformer 架构允许建模具有可变数量和类型的智能体团队,同时可以避免 MAPPO/HAPPO 的缺点。

多智能体 Transformer

为了实现 MARL 的序列建模范式,研究者提供的解决方案是多智能体 Transformer(MAT)。应用 Transformer 架构的思路源于这样一个事实,即智能体观察序列 (o^i_1,...,o^i_n) 输入与动作序列(a^ i_1 , . . . , a^i_n)输出之间的映射是类似于机器翻译的序列建模任务。正如定理 (1) 所回避的,动作 a^i_m 依赖于先前所有智能体的决策 a ^i_1:m−1。

因此,如下图(2)所示,MAT 中包含了一个用于学习联合观察表示的编码器和一个以自回归方式为每个智能体输出动作的解码器。


编码器的参数用φ 表示,它以任意顺序获取观察序列(o^i_1 , . . . , o^i_n),并将它们传递通过几个计算块。每个块都由一个自注意力机制、一个多层感知机(MLP)和残差连接组成,以防止随深度增加出现梯度消失和网络退化。

解码器的参数用θ表示,它将嵌入的联合动作 a^i_0:m−1 , m = {1, . . . n}(其中 a^i_0 是指示解码开始的任意符号)传递到解码块序列。至关重要的是,每个解码块都有一个掩码的自注意力机制。为了训练解码器,研究者将如下裁剪 PPO 目标最小化。


MAT 中的详细数据流如下动图所示。


实验结果

为了评估 MAT 是否符合预期,研究者在星际争霸 II 多智能体挑战(SMAC)基准(MAPPO 在之上具有优越性能)和多智能体 MuJoCo 基准上(HAPPO 在之上具有 SOTA 性能)对 MAT 进行了测试。

此外,研究者还在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基准上了对 MAT 进行了扩展测试。前者提供了一系列具有挑战性的双手操作任务,后者提供了一系列足球游戏中的合作场景。

最后,由于 Transformer 模型通常在小样本任务上表现出强大的泛化性能,因此研究者相信 MAT 在未见过的 MARL 任务上也能具有类似强大的泛化能力。因此,他们在 SMAC 和多智能体 MuJoCo 任务上设计了零样本和小样本实验。

协作 MARL 基准上的性能

如下表 1 和图 4 所示,对于 SMAC、多智能体 MuJoCo 和 Bi-DexHands 基准来说,MAT 在几乎所有任务上都显著优于 MAPPO 和 HAPPO,表明它在同构和异构智能体任务上强大的构建能力。此外,MAT 还得到了优于 MAT-Dec 的性能,表明了 MAT 设计中解码器架构的重要性。



同样地,研究者在 Google Research Football 基准上也得到了类似的性能结果,如下图 5 所示。


MAT 用于小样本学习

表 2 和表 3 中总结了每种算法的零样本和小样本结果,其中粗体数字表示最佳性能。

研究者还提供了数据相同情况下 MAT 的性能,其与对照组一样从头开始训练。如下表所示,MAT 获得了大多数最好成绩,这证明了 MAT 小样本学习的强大泛化性能。

相关文章
|
2月前
|
数据采集 机器学习/深度学习 自然语言处理
智能风险管理的技术架构:2025从数据采集到自主决策的全链路解析
本文系统梳理了项目风险管理的技术演进历程,从文档驱动到智能化阶段,深入解析各时期关键技术与工具架构,并结合实践案例提出前瞻性实施策略,助力项目管理专业人士构建智能风险管理体系。
136 2
|
2月前
|
人工智能 物联网 测试技术
智能化测试基础架构:软件质量保障的新纪元
本文介绍了智能化测试基础架构的核心构成与优势。该架构融合AI、领域工程与自动化技术,包含智能测试平台、测试智能体、赋能引擎和自动化工具链四部分,能自动生成用例、调度执行、分析结果,显著提升测试效率与覆盖率。其核心优势在于实现专家经验规模化、质量前移和快速适应业务变化,助力企业构建新一代质量保障体系。建议从构建知识图谱和试点关键领域智能体起步,逐步推进测试智能化转型。
|
2月前
|
存储 边缘计算 数据处理
面向智能医疗的边缘计算与云计算融合架构的设计与实现
边缘+云混合部署架构正在为AIoT与医疗领域带来前所未有的技术变革。通过这种架构,能够实现对海量数据的实时处理和深度分析,提升业务响应速度和效率,同时在保障数据安全的基础上,优化系统的可扩展性和可靠性。随着技术的发展,边缘+云架构的应用场景将愈发广泛,未来必将在更多领域内发挥巨大的潜力。
|
5月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
822 62
|
5月前
|
机器学习/深度学习 传感器 自然语言处理
基于Transformer架构的时间序列数据去噪技术研究
本文介绍了一种基于Transformer架构的时间序列去噪模型。通过生成合成数据训练,模型在不同噪声条件下展现出强去噪能力。文章详细解析了Transformer的输入嵌入、位置编码、自注意力机制及前馈网络等关键组件,并分析实验结果与注意力权重分布。研究为特定任务的模型优化和专业去噪模型开发奠定了基础。
330 14
基于Transformer架构的时间序列数据去噪技术研究
|
6月前
|
机器学习/深度学习 PyTorch 调度
MiTS与PoTS:面向连续值时间序列的极简Transformer架构
本文探讨了将标准Transformer架构应用于连续值时间序列数据的最小化调整方案,提出了极简时间序列Transformer(MiTS-Transformer)和位置编码扩展时间序列Transformer(PoTS-Transformer)。通过替换嵌入层为线性映射层,MiTS-Transformer实现了对正弦波序列的有效学习。而PoTS-Transformer则通过在高维空间中进行位置编码,结合低维模型架构,解决了长序列处理与过拟合问题。实验结果表明,这两种模型在不同类型的时间序列预测任务中表现出色,为基于Transformer的时间序列预测提供了高效基准方案。
120 5
MiTS与PoTS:面向连续值时间序列的极简Transformer架构
|
6月前
|
机器学习/深度学习 数据采集 Java
基于DeepSeek与RAG的智能天气预报系统架构设计与Java实现
基于DeepSeek与RAG的智能天气预报系统架构设计与Java实现
296 3
|
6月前
|
运维 安全 弹性计算
基于阿里云的开源应用智能管理架构设计与工程实践
本文以Websoft9技术方案为例,探讨企业级应用管理的范式。通过解析开源应用管理面临的部署复杂性、运维低效性和知识碎片化三大挑战,提出基于阿里云的三层架构:智能应用管理门户、核心功能层和基础设施层。文章详细阐述了应用编排标准化(IaC实践)、智能运维体系构建及知识资产数字化的技术实现路径,并结合金融与制造行业的案例,展示解决方案的实际效果。最后提供开发者资源与工具链支持,助力企业高效管理应用。
235 1
|
8月前
|
自然语言处理 算法 JavaScript
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。
267 10
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
|
8月前
|
机器学习/深度学习 人工智能 NoSQL
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
328 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法

热门文章

最新文章