对抗博弈决策方法

简介: 对抗博弈决策方法

对抗博弈主要包括零和正规式与扩展式博弈、Stackelberg博弈以及零和微分博弈这三种模型,本文就这三种对抗博弈模型以及其流行算法进行介绍。

1.零和正规式与扩展式博弈

零和博弈是指博弈中各方的利益完全相反,一方获利即意味着另一方的损失,总收益为零。正规式博弈是指博弈参与者的策略和利益在事先确定,博弈过程可以用一个博弈树或矩阵来表示。扩展式博弈则是在正规式基础上考虑时间因素,每个参与者按照轮次依次选择策略,博弈树会随着每一步的选择而扩展。扩展式博弈能够更好地描述现实中复杂的博弈情况,包括动态策略、不完全信息等。

主流算法:

对于零和正规式博弈,至今已有大量算法,例如,后悔匹配 (RM)、RM+、fictitious play、 (online) double oracle等。其中,最流行的算法是基于后悔学习的,通常称为no-regret (或次线性) 学习算法,依赖于外部遗憾、内在遗憾、交换遗憾及基于纳什均衡的遗憾等概念。基于此,两个主流算法是optimistic FTRL和optimistic mirror descent。

针对零和不完美信息扩展式博弈,流行方法均基于反事实遗憾最小化 (CFR)。至今,许多更优性能的CFR变体被相继提出,包括CFR+、DCFR、LCFR、ECFR、AutoCFR等。同时涌现大量AI算法,例如,PSRO、deep CFR、single deep CFR、UDEF、PoG、NAC等。

2.Stackelberg博弈

Stackelberg博弈是一种博弈论中的领导者-追随者模型,其中一个参与者被称为领导者,而其他参与者被称为追随者。在Stackelberg博弈中,领导者能够先行选择策略,而追随者在观察到领导者的选择后,再做出自己的决策。

具体而言,领导者首先考虑追随者的反应,并基于对追随者行为的预期做出最优决策。而追随者则在领导者的策略选择之后,通过最优反应来做出决策,以使自己的收益最大化。

Stackelberg博弈通常涉及不对称的信息和能力,领导者有更完整的信息或更强的能力来预测和影响追随者的行为。这使得领导者在博弈中具有一定的优势,并能够通过选择最优策略来控制和影响整个博弈过程。

主流算法:

针对Stackelberg博弈,普遍的解决办法是把问题转化成双层线性规划或者混合整数线性规划问题,然后流行的解决算法包括multiple LP方法、benders decomposition、cut and branch等。对于连续Stackelberg博弈,常用算法是梯度上升下降法,许多算法都可以看作这个算法的变体。

3.零和微分博弈

零和微分博弈是一种针对连续变量的零和博弈模型。在这种博弈中,参与者的策略是一组连续可变的变量,而每个参与者的收益函数是这些变量的函数。

在零和微分博弈中,每个参与者的目标是最大化自己的收益,而其他参与者的目标则是最小化其收益,因此博弈的总收益为零。参与者根据对其他参与者行为的预测和评估,选择自己的策略以达到最优收益。

主流算法:

对于零和微分博弈,使用粘性解方法是一种常用且有效的方法。在这种方法中,关键的理论基础是Hamilton-Jacobi-Isaacs方程

Hamilton-Jacobi-Isaacs方程是一个非线性偏微分方程,描述了零和微分博弈的值函数。通过求解这个方程,可以得到每个参与者的最优策略和相应的值函数。

粘性解方法将Hamilton-Jacobi-Isaacs方程转化为一个求解附加粘性条件的偏微分方程问题。这个附加条件通常取决于实际问题的约束条件,并用于界定最优策略的行为。通过数值方法或近似求解,可以得到该方程的解,即值函数。

目录
相关文章
|
9月前
|
机器学习/深度学习 数据采集 算法
乳腺癌治疗创新:特征权重分配引领精准医学
乳腺癌治疗创新:特征权重分配引领精准医学
98 1
|
1月前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
120 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
2月前
|
数据采集 机器学习/深度学习 人工智能
《驯服“过拟合”之兽:守护人工智能算法的精准与稳健》
在人工智能发展中,过拟合是算法训练中常见问题,指模型过度学习训练数据中的细节和噪声,导致对新数据泛化能力差。为避免过拟合,需从数据质量和数量入手,确保数据多样性并适当增加数据量。同时,数据预处理(如归一化)、选择合适的模型复杂度、应用正则化技术(如L1/L2正则化)、采用早停法和交叉验证等方法,可有效提高模型的稳定性和准确性。防范过拟合至关重要,尤其在医疗、金融等领域,以确保算法的可靠性和实用性。
61 17
|
7月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
92 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
9月前
|
供应链 监控 数据挖掘
高质量决策是伪命题吗?拨开迷雾,回归决策价值
高质量决策是伪命题吗?拨开迷雾,回归决策价值
137 1
|
9月前
|
移动开发 资源调度 监控
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
592 0
|
机器学习/深度学习 数据采集 人工智能
AI揭示生命密码:如何个性化生存概率预测?
接下来的章节将进一步探讨AI技术在个性化乳腺癌预测中的应用,以及未来的发展方向。
376 0
|
算法 调度
【数学建模】2022数维杯比赛(模拟退火优化算法、NSII求解)大规模新型冠状病毒疫情最优应对策略研究(Matlab代码实现)
【数学建模】2022数维杯比赛(模拟退火优化算法、NSII求解)大规模新型冠状病毒疫情最优应对策略研究(Matlab代码实现)
138 0
|
SQL 存储 安全
红蓝对抗-基础学习
安全是一个整体,正如木桶定律,最短的木板是评估木桶品质的标准,安全最薄弱环节也是决定系统好坏的关键。而网络红蓝军对抗的目的就是用来评估企业安全性,有助于找出企业安全中最脆弱的环节,提升企业安全能力的建设。
|
人工智能
降低损失挽救生命,用人工智能对抗自然灾害
人们长久以来一直将称之视为纯粹突发的极端事件。但实际上,成千上万条微妙且缓慢推进的线索,早已指明了自然灾害发生的可能性与严重程度。
149 0
降低损失挽救生命,用人工智能对抗自然灾害