基于模型的多智能体强化学习中的模型学习理解

简介: 基于模型的多智能体强化学习中的模型学习理解

环境模型需要学习两个函数:状态转移函数,和奖励函数。


多个智能体整体联合学习


image.png

此时环境模型的学习与单智能体的学习并无太大差别,无非是观测空间维度扩大,动作空间维度扩大。

此类建模方式优点:原理简单,较好实现。

此类建模方式缺点:在此类模型中也可以做多尺度,此时的多尺度是整体上的多尺度,并非具体到每个单个智能体上的多尺度。因此整体上来看,具备一定的丰富采样规划的能力,但是并没有具体到每个单个智能体,多尺度采样那么丰富。


智能体分开学习环境模型


智能体分开学习各自环境模型的问题在于整体的奖励如何给到各个智能体,奖励无法分配的话,对于各自的智能体将无法学习各自的环境模型,因为各个环境模型中需要对各自的奖励进行预测。

举例来说如下:假设有两个智能体A 1A 2 , 有两个动作选项,选择来上班奖励是1,不来上班奖励是0。此时整个状态空间和奖励函数可以描述为:

  1. 智能体A 1 选择不来上班,智能体A 2 也选择不来上班,此时获得的奖励为0。
  2. 智能体A 1 选择不来上班,智能体A 2 也选择来上班,此时获得的奖励为1。
  3. 智能体A 1 选择来上班,智能体A 2 选择不来上班,此时获得的奖励为1。
  4. 智能体A 1 选择来上班,智能体A 2 也选择来上班,此时获得的奖励为2。

此时,如果仅依据观测数据,智能体A 1 A1A1和智能体A 2 A2A2的是否选择来上班的奖励应该是多少呢?

假设智能体A 1选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2 ,智能体A 2 选择不来上班的奖励为y 1 ,智能体A 2 选择来上班的奖励为y 2 。那么他们之间的关系需要满足如下方程:


image.png

image.png

此方程联立将会有唯一正确解。

优点:有理论上的保障。

缺点:智能体需要为同构的。


HPP


除此之外还有一些方法来处理decentralized多智能体问题。

中,期望学习两个导航智能体,在地图的各自两端,目标是期望其尽快相遇。

文中学习两个预测模块:self-prediction(fi)和other-prediction(}fi)。

self-prediction(f i \mathbf{f}_{i}fi)基于自身的历史信息预测下一个状态的信息。

image.png

这里只需要预测出下一个状态的位置信息即可,因为策略动作就是直接到那个位置即可。奖励也是基于位置信息预测得到的,并且奖励的计算方式人为给定,整体算法如下所示:

总的来看,HPP确实是可以实现各个智能体单独规划,但是联合的奖励计算是人为给定的,并且策略也不是网络计算得到的输出。并且是各个单独的智能体往前搜索T TT步之后,再计算总的奖励,最后将搜索出来的比较好的M MM个结果作为需要达到的目标。

总体给我的感觉是,任务比较简单,要是再复杂一点,智能体数量多一点,这个算法可能效果并不会很好,但是每个智能体依据预测的其它智能体的位置往前搜索T TT之后再计算总的奖励的思路还是不错,因为预测了其它智能体的信息,也就是有全局观测,也能够巧妙避开了奖励分配的问题,而是采用全局奖励的预测。


AORPO


Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts

image.png6fbee904e76a4b549e721371241008f9.jpg


异构多智能体环境学习


基于上述两篇预测对手行为的文章来看,此时回到最开始的问题约束上:

智能体A 1 选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2,智能体A 2 选择不来上班的奖励为y 1,智能体A 2选择来上班的奖励为y 2。那么他们之间的关系需要满足如下方程:

image.png

若此时智能体A 1 能够预测出A 2 的行为,同样能够对上述约束添加额外条件。比如,假设预测出A 2 的行为为来上班y 2 ,那智能体A 1 如果来上班得到的奖励会是x 2 + y 2 = 2 ,智能体A 1 选择不来上班得到的奖励将会是x 1 + y 2 = 1 。此时智能体A 1 依旧会选择来上班这个行为来获取更高的联合奖励,从而实现最终的规划策略一致。

若采用decentralized world model进行环境模型的学习,想要每个智能体都具备单独的,不同尺度的规划能力,可以采用增加一个其它智能体的行为预测模块a − i = f − i ( s ) ,将其它智能体的行为预测出来。此时对联合动作空间下的奖励建模可以表示为R = f g l o b a l ( s , a i , a − i ) 当给定状态s ss的情况下,a − i 也将预测出来,相对来说也是给定,此时智能体i ii采取不同的动作a i i就能获得不同的全局奖励R ,就能够进行学习到环境模型f − i if g l o b a l的情况下进行策略规划。从而在不进行奖励分解的情况下,实现单个智能体单独具备策略规划的能力。


优点:支持异构。

缺点:要学的东西相对会多一点。训练难度加大。


相关文章
|
9天前
|
机器学习/深度学习 算法 自动驾驶
深度学习之分布式智能体学习
基于深度学习的分布式智能体学习是一种针对多智能体系统的机器学习方法,旨在通过多个智能体协作、分布式决策和学习来解决复杂任务。这种方法特别适用于具有大规模数据、分散计算资源、或需要智能体彼此交互的应用场景。
25 4
|
1月前
|
人工智能 搜索推荐
开闭源模型大乱斗:看看哪个智能体最能窥见人类真实意图
【9月更文挑战第3天】在人工智能领域,理解并执行用户意图是一大挑战。现有模型常因用户模糊指令而难以捕捉真实需求。为此,研究人员提出了“Intention-in-Interaction”(IN3)基准,通过显式查询检验隐式意图,引入Mistral-Interact模型评估任务模糊性、询问并细化用户意图,最终执行任务。该方法显著提升了智能体的理解和执行能力,但依然面临评估主观性、用户信息提供不足及复杂任务处理等挑战。论文详情见:https://arxiv.org/abs/2402.09205
30 2
|
2月前
|
机器学习/深度学习 存储 定位技术
强化学习Agent系列(一)——PyGame游戏编程,Python 贪吃蛇制作实战教学
本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学,介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。
|
3月前
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
61 1
|
2月前
|
人工智能 安全 搜索推荐
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
67 1
|
3月前
|
存储 人工智能 前端开发
基于LLM大模型Agent的适用范围和困境
基于LLM大模型Agent的适用范围和困境
104 8
|
2月前
|
机器学习/深度学习 人工智能 缓存
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
182 0
|
2月前
|
人工智能 物联网 异构计算
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
114 0
|
3月前
|
机器学习/深度学习 算法 数据挖掘
Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。
【7月更文挑战第5天】**Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。 - Python因丰富库(如TensorFlow, PyTorch, Keras, Pandas, NumPy)和生态而受青睐。 - 使用OpenAI Gym构建环境,如`gym.make('CartPole-v0')`。 - 选择模型,例如神经网络,定义策略如Q-Learning。 - 训练模型,调整智能体行为,如Q-Learning更新Q表。 - 最后评估模型性能,实现数据驱动决策。
39 3
下一篇
无影云桌面