对抗博弈决策方法

简介: 对抗博弈决策方法

对抗博弈主要包括零和正规式与扩展式博弈、Stackelberg博弈以及零和微分博弈这三种模型,本文就这三种对抗博弈模型以及其流行算法进行介绍。

1.零和正规式与扩展式博弈

零和博弈是指博弈中各方的利益完全相反,一方获利即意味着另一方的损失,总收益为零。正规式博弈是指博弈参与者的策略和利益在事先确定,博弈过程可以用一个博弈树或矩阵来表示。扩展式博弈则是在正规式基础上考虑时间因素,每个参与者按照轮次依次选择策略,博弈树会随着每一步的选择而扩展。扩展式博弈能够更好地描述现实中复杂的博弈情况,包括动态策略、不完全信息等。

主流算法:

对于零和正规式博弈,至今已有大量算法,例如,后悔匹配 (RM)、RM+、fictitious play、 (online) double oracle等。其中,最流行的算法是基于后悔学习的,通常称为no-regret (或次线性) 学习算法,依赖于外部遗憾、内在遗憾、交换遗憾及基于纳什均衡的遗憾等概念。基于此,两个主流算法是optimistic FTRL和optimistic mirror descent。

针对零和不完美信息扩展式博弈,流行方法均基于反事实遗憾最小化 (CFR)。至今,许多更优性能的CFR变体被相继提出,包括CFR+、DCFR、LCFR、ECFR、AutoCFR等。同时涌现大量AI算法,例如,PSRO、deep CFR、single deep CFR、UDEF、PoG、NAC等。

2.Stackelberg博弈

Stackelberg博弈是一种博弈论中的领导者-追随者模型,其中一个参与者被称为领导者,而其他参与者被称为追随者。在Stackelberg博弈中,领导者能够先行选择策略,而追随者在观察到领导者的选择后,再做出自己的决策。

具体而言,领导者首先考虑追随者的反应,并基于对追随者行为的预期做出最优决策。而追随者则在领导者的策略选择之后,通过最优反应来做出决策,以使自己的收益最大化。

Stackelberg博弈通常涉及不对称的信息和能力,领导者有更完整的信息或更强的能力来预测和影响追随者的行为。这使得领导者在博弈中具有一定的优势,并能够通过选择最优策略来控制和影响整个博弈过程。

主流算法:

针对Stackelberg博弈,普遍的解决办法是把问题转化成双层线性规划或者混合整数线性规划问题,然后流行的解决算法包括multiple LP方法、benders decomposition、cut and branch等。对于连续Stackelberg博弈,常用算法是梯度上升下降法,许多算法都可以看作这个算法的变体。

3.零和微分博弈

零和微分博弈是一种针对连续变量的零和博弈模型。在这种博弈中,参与者的策略是一组连续可变的变量,而每个参与者的收益函数是这些变量的函数。

在零和微分博弈中,每个参与者的目标是最大化自己的收益,而其他参与者的目标则是最小化其收益,因此博弈的总收益为零。参与者根据对其他参与者行为的预测和评估,选择自己的策略以达到最优收益。

主流算法:

对于零和微分博弈,使用粘性解方法是一种常用且有效的方法。在这种方法中,关键的理论基础是Hamilton-Jacobi-Isaacs方程

Hamilton-Jacobi-Isaacs方程是一个非线性偏微分方程,描述了零和微分博弈的值函数。通过求解这个方程,可以得到每个参与者的最优策略和相应的值函数。

粘性解方法将Hamilton-Jacobi-Isaacs方程转化为一个求解附加粘性条件的偏微分方程问题。这个附加条件通常取决于实际问题的约束条件,并用于界定最优策略的行为。通过数值方法或近似求解,可以得到该方程的解,即值函数。

目录
相关文章
|
6月前
|
供应链 监控 数据挖掘
高质量决策是伪命题吗?拨开迷雾,回归决策价值
高质量决策是伪命题吗?拨开迷雾,回归决策价值
94 1
|
6月前
|
移动开发 资源调度 监控
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
454 0
|
人工智能 Cloud Native Devops
影响产品开发决策的认知偏见
影响产品开发决策的认知偏见
151 0
|
机器学习/深度学习 人工智能 算法
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
106 0
|
SQL 存储 安全
红蓝对抗-基础学习
安全是一个整体,正如木桶定律,最短的木板是评估木桶品质的标准,安全最薄弱环节也是决定系统好坏的关键。而网络红蓝军对抗的目的就是用来评估企业安全性,有助于找出企业安全中最脆弱的环节,提升企业安全能力的建设。
|
人工智能
降低损失挽救生命,用人工智能对抗自然灾害
人们长久以来一直将称之视为纯粹突发的极端事件。但实际上,成千上万条微妙且缓慢推进的线索,早已指明了自然灾害发生的可能性与严重程度。
135 0
降低损失挽救生命,用人工智能对抗自然灾害
|
机器学习/深度学习 人工智能 决策智能
研究人员正确理解人工智能决策的三种方法
为了更好地理解他们构建的模型,人工智能研究人员开发了三种主要的解释方法。这些是局部解释方法,只解释一个具体的决定,而不是整个模型的决定,考虑到规模,这可能具有挑战性。
219 0
研究人员正确理解人工智能决策的三种方法
|
机器学习/深度学习 算法 测试技术
bioRxiv | 生物发现和设计的不确定性学习
bioRxiv | 生物发现和设计的不确定性学习
180 0
bioRxiv | 生物发现和设计的不确定性学习
|
人工智能
用增强的联邦学习应对药物发现数据小和偏的困境
用增强的联邦学习应对药物发现数据小和偏的困境
140 0
|
机器学习/深度学习 人工智能 文字识别
PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制
PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制
195 0
PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制