基于模型的多智能体强化学习中的模型学习理解

简介: 基于模型的多智能体强化学习中的模型学习理解

环境模型需要学习两个函数:状态转移函数,和奖励函数。


多个智能体整体联合学习


image.png

此时环境模型的学习与单智能体的学习并无太大差别,无非是观测空间维度扩大,动作空间维度扩大。

此类建模方式优点:原理简单,较好实现。

此类建模方式缺点:在此类模型中也可以做多尺度,此时的多尺度是整体上的多尺度,并非具体到每个单个智能体上的多尺度。因此整体上来看,具备一定的丰富采样规划的能力,但是并没有具体到每个单个智能体,多尺度采样那么丰富。


智能体分开学习环境模型


智能体分开学习各自环境模型的问题在于整体的奖励如何给到各个智能体,奖励无法分配的话,对于各自的智能体将无法学习各自的环境模型,因为各个环境模型中需要对各自的奖励进行预测。

举例来说如下:假设有两个智能体A 1A 2 , 有两个动作选项,选择来上班奖励是1,不来上班奖励是0。此时整个状态空间和奖励函数可以描述为:

  1. 智能体A 1 选择不来上班,智能体A 2 也选择不来上班,此时获得的奖励为0。
  2. 智能体A 1 选择不来上班,智能体A 2 也选择来上班,此时获得的奖励为1。
  3. 智能体A 1 选择来上班,智能体A 2 选择不来上班,此时获得的奖励为1。
  4. 智能体A 1 选择来上班,智能体A 2 也选择来上班,此时获得的奖励为2。

此时,如果仅依据观测数据,智能体A 1 A1A1和智能体A 2 A2A2的是否选择来上班的奖励应该是多少呢?

假设智能体A 1选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2 ,智能体A 2 选择不来上班的奖励为y 1 ,智能体A 2 选择来上班的奖励为y 2 。那么他们之间的关系需要满足如下方程:


image.png

image.png

此方程联立将会有唯一正确解。

优点:有理论上的保障。

缺点:智能体需要为同构的。


HPP


除此之外还有一些方法来处理decentralized多智能体问题。

中,期望学习两个导航智能体,在地图的各自两端,目标是期望其尽快相遇。

文中学习两个预测模块:self-prediction(fi)和other-prediction(}fi)。

self-prediction(f i \mathbf{f}_{i}fi)基于自身的历史信息预测下一个状态的信息。

image.png

这里只需要预测出下一个状态的位置信息即可,因为策略动作就是直接到那个位置即可。奖励也是基于位置信息预测得到的,并且奖励的计算方式人为给定,整体算法如下所示:

总的来看,HPP确实是可以实现各个智能体单独规划,但是联合的奖励计算是人为给定的,并且策略也不是网络计算得到的输出。并且是各个单独的智能体往前搜索T TT步之后,再计算总的奖励,最后将搜索出来的比较好的M MM个结果作为需要达到的目标。

总体给我的感觉是,任务比较简单,要是再复杂一点,智能体数量多一点,这个算法可能效果并不会很好,但是每个智能体依据预测的其它智能体的位置往前搜索T TT之后再计算总的奖励的思路还是不错,因为预测了其它智能体的信息,也就是有全局观测,也能够巧妙避开了奖励分配的问题,而是采用全局奖励的预测。


AORPO


Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts

image.png6fbee904e76a4b549e721371241008f9.jpg


异构多智能体环境学习


基于上述两篇预测对手行为的文章来看,此时回到最开始的问题约束上:

智能体A 1 选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2,智能体A 2 选择不来上班的奖励为y 1,智能体A 2选择来上班的奖励为y 2。那么他们之间的关系需要满足如下方程:

image.png

若此时智能体A 1 能够预测出A 2 的行为,同样能够对上述约束添加额外条件。比如,假设预测出A 2 的行为为来上班y 2 ,那智能体A 1 如果来上班得到的奖励会是x 2 + y 2 = 2 ,智能体A 1 选择不来上班得到的奖励将会是x 1 + y 2 = 1 。此时智能体A 1 依旧会选择来上班这个行为来获取更高的联合奖励,从而实现最终的规划策略一致。

若采用decentralized world model进行环境模型的学习,想要每个智能体都具备单独的,不同尺度的规划能力,可以采用增加一个其它智能体的行为预测模块a − i = f − i ( s ) ,将其它智能体的行为预测出来。此时对联合动作空间下的奖励建模可以表示为R = f g l o b a l ( s , a i , a − i ) 当给定状态s ss的情况下,a − i 也将预测出来,相对来说也是给定,此时智能体i ii采取不同的动作a i i就能获得不同的全局奖励R ,就能够进行学习到环境模型f − i if g l o b a l的情况下进行策略规划。从而在不进行奖励分解的情况下,实现单个智能体单独具备策略规划的能力。


优点:支持异构。

缺点:要学的东西相对会多一点。训练难度加大。


相关文章
|
2月前
|
机器学习/深度学习 算法 决策智能
北大领衔,多智能体强化学习研究登上Nature子刊
北京大学研究团队近日在《Nature》子刊上发布了一篇关于多智能体强化学习(MARL)的论文,提出了一种高效且可扩展的MARL框架,旨在解决大规模网络控制系统中的决策问题。该框架实现了智能体间的局部通信,减少了通信成本与计算复杂度,并在交通、电力及疫情防控等多个真实场景实验中,显著提升了决策性能。论文链接:https://www.nature.com/articles/s42256-024-00879-7。尽管该研究仍存局限,但为MARL的应用提供了新思路。
62 2
|
8天前
|
算法 机器人 Linux
Agent-Based概率模型让多无人机野外搜救更高效
【论文解读】Agent-Based概率模型、Receding Horizon规划策略、动态分区算法相结合,提升多无人机野外搜救效果
46 13
Agent-Based概率模型让多无人机野外搜救更高效
|
22天前
|
机器学习/深度学习 人工智能 算法
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
斯坦福大学Percy Liang团队推出VideoAgent,一种能生成高质量视频并自我优化的模型。它结合强化学习和监督学习,根据用户反馈和环境变化自动调整,提升视频生成质量和用户体验,但同时也面临模型不稳定性和高资源需求等挑战。
27 6
|
22天前
|
自然语言处理 Python
使用Python和Qwen模型实现一个简单的智能问答Agent
使用Python和Qwen模型实现一个简单的智能问答Agent
86 4
|
1月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
127 4
|
2月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
176 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
2月前
|
机器学习/深度学习 人工智能 安全
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
49 3
|
3月前
|
机器学习/深度学习 算法 自动驾驶
深度学习之分布式智能体学习
基于深度学习的分布式智能体学习是一种针对多智能体系统的机器学习方法,旨在通过多个智能体协作、分布式决策和学习来解决复杂任务。这种方法特别适用于具有大规模数据、分散计算资源、或需要智能体彼此交互的应用场景。
184 4
|
3月前
|
人工智能 搜索推荐
开闭源模型大乱斗:看看哪个智能体最能窥见人类真实意图
【9月更文挑战第3天】在人工智能领域,理解并执行用户意图是一大挑战。现有模型常因用户模糊指令而难以捕捉真实需求。为此,研究人员提出了“Intention-in-Interaction”(IN3)基准,通过显式查询检验隐式意图,引入Mistral-Interact模型评估任务模糊性、询问并细化用户意图,最终执行任务。该方法显著提升了智能体的理解和执行能力,但依然面临评估主观性、用户信息提供不足及复杂任务处理等挑战。论文详情见:https://arxiv.org/abs/2402.09205
50 2