环境模型需要学习两个函数:状态转移函数,和奖励函数。
多个智能体整体联合学习
此时环境模型的学习与单智能体的学习并无太大差别,无非是观测空间维度扩大,动作空间维度扩大。
此类建模方式优点:原理简单,较好实现。
此类建模方式缺点:在此类模型中也可以做多尺度,此时的多尺度是整体上的多尺度,并非具体到每个单个智能体上的多尺度。因此整体上来看,具备一定的丰富采样规划的能力,但是并没有具体到每个单个智能体,多尺度采样那么丰富。
智能体分开学习环境模型
智能体分开学习各自环境模型的问题在于整体的奖励如何给到各个智能体,奖励无法分配的话,对于各自的智能体将无法学习各自的环境模型,因为各个环境模型中需要对各自的奖励进行预测。
举例来说如下:假设有两个智能体A 1和A 2 , 有两个动作选项,选择来上班奖励是1,不来上班奖励是0。此时整个状态空间和奖励函数可以描述为:
- 智能体A 1 选择不来上班,智能体A 2 也选择不来上班,此时获得的奖励为0。
- 智能体A 1 选择不来上班,智能体A 2 也选择来上班,此时获得的奖励为1。
- 智能体A 1 选择来上班,智能体A 2 选择不来上班,此时获得的奖励为1。
- 智能体A 1 选择来上班,智能体A 2 也选择来上班,此时获得的奖励为2。
此时,如果仅依据观测数据,智能体A 1 A1A1和智能体A 2 A2A2的是否选择来上班的奖励应该是多少呢?
假设智能体A 1选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2 ,智能体A 2 选择不来上班的奖励为y 1 ,智能体A 2 选择来上班的奖励为y 2 。那么他们之间的关系需要满足如下方程:
此方程联立将会有唯一正确解。
优点:有理论上的保障。
缺点:智能体需要为同构的。
HPP
除此之外还有一些方法来处理decentralized
的多智能体问题。
中,期望学习两个导航智能体,在地图的各自两端,目标是期望其尽快相遇。
文中学习两个预测模块:self-prediction
(fi)和other-prediction
(}f−i)。
self-prediction
(f i \mathbf{f}_{i}fi)基于自身的历史信息预测下一个状态的信息。
这里只需要预测出下一个状态的位置信息即可,因为策略动作就是直接到那个位置即可。奖励也是基于位置信息预测得到的,并且奖励的计算方式人为给定,整体算法如下所示:
总的来看,HPP
确实是可以实现各个智能体单独规划,但是联合的奖励计算是人为给定的,并且策略也不是网络计算得到的输出。并且是各个单独的智能体往前搜索T TT步之后,再计算总的奖励,最后将搜索出来的比较好的M MM个结果作为需要达到的目标。
总体给我的感觉是,任务比较简单,要是再复杂一点,智能体数量多一点,这个算法可能效果并不会很好,但是每个智能体依据预测的其它智能体的位置往前搜索T TT之后再计算总的奖励的思路还是不错,因为预测了其它智能体的信息,也就是有全局观测,也能够巧妙避开了奖励分配的问题,而是采用全局奖励的预测。
AORPO
Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts
异构多智能体环境学习
基于上述两篇预测对手行为的文章来看,此时回到最开始的问题约束上:
智能体A 1 选择不来上班的奖励为x 1 ,智能体A 1 选择来上班的奖励为x 2,智能体A 2 选择不来上班的奖励为y 1,智能体A 2选择来上班的奖励为y 2。那么他们之间的关系需要满足如下方程:
若此时智能体A 1 能够预测出A 2 的行为,同样能够对上述约束添加额外条件。比如,假设预测出A 2 的行为为来上班y 2 ,那智能体A 1 如果来上班得到的奖励会是x 2 + y 2 = 2 ,智能体A 1 选择不来上班得到的奖励将会是x 1 + y 2 = 1 。此时智能体A 1 依旧会选择来上班这个行为来获取更高的联合奖励,从而实现最终的规划策略一致。
若采用decentralized world model
进行环境模型的学习,想要每个智能体都具备单独的,不同尺度的规划能力,可以采用增加一个其它智能体的行为预测模块a − i = f − i ( s ) ,将其它智能体的行为预测出来。此时对联合动作空间下的奖励建模可以表示为R = f g l o b a l ( s , a i , a − i ) 当给定状态s ss的情况下,a − i 也将预测出来,相对来说也是给定,此时智能体i ii采取不同的动作a i i就能获得不同的全局奖励R ,就能够进行学习到环境模型f − i i和f g l o b a l的情况下进行策略规划。从而在不进行奖励分解的情况下,实现单个智能体单独具备策略规划的能力。
优点:支持异构。
缺点:要学的东西相对会多一点。训练难度加大。