基于模型的多智能体强化学习中的模型学习理解

简介: 基于模型的多智能体强化学习中的模型学习理解

环境模型需要学习两个函数:状态转移函数,和奖励函数。


多个智能体整体联合学习


image.png

此时环境模型的学习与单智能体的学习并无太大差别,无非是观测空间维度扩大,动作空间维度扩大。

此类建模方式优点:原理简单,较好实现。

此类建模方式缺点:在此类模型中也可以做多尺度,此时的多尺度是整体上的多尺度,并非具体到每个单个智能体上的多尺度。因此整体上来看,具备一定的丰富采样规划的能力,但是并没有具体到每个单个智能体,多尺度采样那么丰富。


智能体分开学习环境模型


智能体分开学习各自环境模型的问题在于整体的奖励如何给到各个智能体,奖励无法分配的话,对于各自的智能体将无法学习各自的环境模型,因为各个环境模型中需要对各自的奖励进行预测。

举例来说如下:假设有两个智能体A 1A 2 , 有两个动作选项,选择来上班奖励是1,不来上班奖励是0。此时整个状态空间和奖励函数可以描述为:

  1. 智能体A 1 选择不来上班,智能体A 2 也选择不来上班,此时获得的奖励为0。
  2. 智能体A 1 选择不来上班,智能体A 2 也选择来上班,此时获得的奖励为1。
  3. 智能体A 1 选择来上班,智能体A 2 选择不来上班,此时获得的奖励为1。
  4. 智能体A 1 选择来上班,智能体A 2 也选择来上班,此时获得的奖励为2。

此时,如果仅依据观测数据,智能体A 1 A1A1和智能体A 2 A2A2的是否选择来上班的奖励应该是多少呢?

假设智能体A 1选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2 ,智能体A 2 选择不来上班的奖励为y 1 ,智能体A 2 选择来上班的奖励为y 2 。那么他们之间的关系需要满足如下方程:


image.png

image.png

此方程联立将会有唯一正确解。

优点:有理论上的保障。

缺点:智能体需要为同构的。


HPP


除此之外还有一些方法来处理decentralized多智能体问题。

中,期望学习两个导航智能体,在地图的各自两端,目标是期望其尽快相遇。

文中学习两个预测模块:self-prediction(fi)和other-prediction(}fi)。

self-prediction(f i \mathbf{f}_{i}fi)基于自身的历史信息预测下一个状态的信息。

image.png

这里只需要预测出下一个状态的位置信息即可,因为策略动作就是直接到那个位置即可。奖励也是基于位置信息预测得到的,并且奖励的计算方式人为给定,整体算法如下所示:

总的来看,HPP确实是可以实现各个智能体单独规划,但是联合的奖励计算是人为给定的,并且策略也不是网络计算得到的输出。并且是各个单独的智能体往前搜索T TT步之后,再计算总的奖励,最后将搜索出来的比较好的M MM个结果作为需要达到的目标。

总体给我的感觉是,任务比较简单,要是再复杂一点,智能体数量多一点,这个算法可能效果并不会很好,但是每个智能体依据预测的其它智能体的位置往前搜索T TT之后再计算总的奖励的思路还是不错,因为预测了其它智能体的信息,也就是有全局观测,也能够巧妙避开了奖励分配的问题,而是采用全局奖励的预测。


AORPO


Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts

image.png6fbee904e76a4b549e721371241008f9.jpg


异构多智能体环境学习


基于上述两篇预测对手行为的文章来看,此时回到最开始的问题约束上:

智能体A 1 选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2,智能体A 2 选择不来上班的奖励为y 1,智能体A 2选择来上班的奖励为y 2。那么他们之间的关系需要满足如下方程:

image.png

若此时智能体A 1 能够预测出A 2 的行为,同样能够对上述约束添加额外条件。比如,假设预测出A 2 的行为为来上班y 2 ,那智能体A 1 如果来上班得到的奖励会是x 2 + y 2 = 2 ,智能体A 1 选择不来上班得到的奖励将会是x 1 + y 2 = 1 。此时智能体A 1 依旧会选择来上班这个行为来获取更高的联合奖励,从而实现最终的规划策略一致。

若采用decentralized world model进行环境模型的学习,想要每个智能体都具备单独的,不同尺度的规划能力,可以采用增加一个其它智能体的行为预测模块a − i = f − i ( s ) ,将其它智能体的行为预测出来。此时对联合动作空间下的奖励建模可以表示为R = f g l o b a l ( s , a i , a − i ) 当给定状态s ss的情况下,a − i 也将预测出来,相对来说也是给定,此时智能体i ii采取不同的动作a i i就能获得不同的全局奖励R ,就能够进行学习到环境模型f − i if g l o b a l的情况下进行策略规划。从而在不进行奖励分解的情况下,实现单个智能体单独具备策略规划的能力。


优点:支持异构。

缺点:要学的东西相对会多一点。训练难度加大。


相关文章
|
2月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
4月前
|
机器学习/深度学习 存储 人工智能
TableAgent数据分析智能体——数据分析师的大模型
TableAgent数据分析智能体——数据分析师的大模型
|
6天前
|
XML JSON API
【AIGC】LangChain Agent 最新教程详解及示例学习
【5月更文挑战第5天】LangChain Agent全网最全最新教程学习及示例学习
|
16天前
|
自然语言处理 前端开发 Swift
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
Llama3模型在4月18日公布后,国内开发者对Llama3模型进行了很多训练和适配,除了中文纯文本模型外,多模态版本也陆续在发布中。
|
18天前
|
人工智能 搜索推荐 决策智能
【AI Agent系列】【阿里AgentScope框架】1. 深入源码:详细解读AgentScope中的智能体定义以及模型配置的流程
【AI Agent系列】【阿里AgentScope框架】1. 深入源码:详细解读AgentScope中的智能体定义以及模型配置的流程
92 0
|
18天前
|
存储 人工智能 数据库
【AI Agent系列】【MetaGPT多智能体学习】8. MetaGPT多智能体进阶练习 - 使用MetaGPT重构BabyAGI
【AI Agent系列】【MetaGPT多智能体学习】8. MetaGPT多智能体进阶练习 - 使用MetaGPT重构BabyAGI
21 0
|
18天前
|
存储 人工智能 API
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
170 0
|
18天前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
45 0
|
18天前
|
人工智能 前端开发 决策智能
【AI Agent系列】【MetaGPT多智能体学习】5. 多智能体案例拆解 - 基于MetaGPT的智能体辩论(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】5. 多智能体案例拆解 - 基于MetaGPT的智能体辩论(附完整代码)
29 0
|
18天前
|
人工智能 测试技术 决策智能
【AI Agent系列】【MetaGPT多智能体学习】4. 基于MetaGPT的Team组件开发你的第一个智能体团队
【AI Agent系列】【MetaGPT多智能体学习】4. 基于MetaGPT的Team组件开发你的第一个智能体团队
49 0

热门文章

最新文章