对抗博弈决策方法

简介: 对抗博弈决策方法

对抗博弈主要包括零和正规式与扩展式博弈、Stackelberg博弈以及零和微分博弈这三种模型,本文就这三种对抗博弈模型以及其流行算法进行介绍。

1.零和正规式与扩展式博弈

零和博弈是指博弈中各方的利益完全相反,一方获利即意味着另一方的损失,总收益为零。正规式博弈是指博弈参与者的策略和利益在事先确定,博弈过程可以用一个博弈树或矩阵来表示。扩展式博弈则是在正规式基础上考虑时间因素,每个参与者按照轮次依次选择策略,博弈树会随着每一步的选择而扩展。扩展式博弈能够更好地描述现实中复杂的博弈情况,包括动态策略、不完全信息等。

主流算法:

对于零和正规式博弈,至今已有大量算法,例如,后悔匹配 (RM)、RM+、fictitious play、 (online) double oracle等。其中,最流行的算法是基于后悔学习的,通常称为no-regret (或次线性) 学习算法,依赖于外部遗憾、内在遗憾、交换遗憾及基于纳什均衡的遗憾等概念。基于此,两个主流算法是optimistic FTRL和optimistic mirror descent。

针对零和不完美信息扩展式博弈,流行方法均基于反事实遗憾最小化 (CFR)。至今,许多更优性能的CFR变体被相继提出,包括CFR+、DCFR、LCFR、ECFR、AutoCFR等。同时涌现大量AI算法,例如,PSRO、deep CFR、single deep CFR、UDEF、PoG、NAC等。

2.Stackelberg博弈

Stackelberg博弈是一种博弈论中的领导者-追随者模型,其中一个参与者被称为领导者,而其他参与者被称为追随者。在Stackelberg博弈中,领导者能够先行选择策略,而追随者在观察到领导者的选择后,再做出自己的决策。

具体而言,领导者首先考虑追随者的反应,并基于对追随者行为的预期做出最优决策。而追随者则在领导者的策略选择之后,通过最优反应来做出决策,以使自己的收益最大化。

Stackelberg博弈通常涉及不对称的信息和能力,领导者有更完整的信息或更强的能力来预测和影响追随者的行为。这使得领导者在博弈中具有一定的优势,并能够通过选择最优策略来控制和影响整个博弈过程。

主流算法:

针对Stackelberg博弈,普遍的解决办法是把问题转化成双层线性规划或者混合整数线性规划问题,然后流行的解决算法包括multiple LP方法、benders decomposition、cut and branch等。对于连续Stackelberg博弈,常用算法是梯度上升下降法,许多算法都可以看作这个算法的变体。

3.零和微分博弈

零和微分博弈是一种针对连续变量的零和博弈模型。在这种博弈中,参与者的策略是一组连续可变的变量,而每个参与者的收益函数是这些变量的函数。

在零和微分博弈中,每个参与者的目标是最大化自己的收益,而其他参与者的目标则是最小化其收益,因此博弈的总收益为零。参与者根据对其他参与者行为的预测和评估,选择自己的策略以达到最优收益。

主流算法:

对于零和微分博弈,使用粘性解方法是一种常用且有效的方法。在这种方法中,关键的理论基础是Hamilton-Jacobi-Isaacs方程

Hamilton-Jacobi-Isaacs方程是一个非线性偏微分方程,描述了零和微分博弈的值函数。通过求解这个方程,可以得到每个参与者的最优策略和相应的值函数。

粘性解方法将Hamilton-Jacobi-Isaacs方程转化为一个求解附加粘性条件的偏微分方程问题。这个附加条件通常取决于实际问题的约束条件,并用于界定最优策略的行为。通过数值方法或近似求解,可以得到该方程的解,即值函数。

目录
相关文章
|
3天前
|
机器学习/深度学习 算法 搜索推荐
机器学习的伦理问题与社会影响
【6月更文挑战第3天】机器学习如同淘气小精灵,既带来便利也可能引发问题。人脸识别误识可能导致误会,智能推荐系统或限制信息多样性。简单算法示例显示数据偏见可能造成不公平。数据隐私保护和工作变革也是伦理挑战。需关注机器学习的社会影响,制定规则确保其良性发展,与科技和谐共进,共创美好未来。
23 0
|
11天前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
18 1
|
23天前
|
供应链 监控 数据挖掘
高质量决策是伪命题吗?拨开迷雾,回归决策价值
高质量决策是伪命题吗?拨开迷雾,回归决策价值
26 1
|
23天前
|
机器学习/深度学习 算法 数据可视化
突破传统生存分析:利用随机森林进行个体化风险预测
突破传统生存分析:利用随机森林进行个体化风险预测
183 0
突破传统生存分析:利用随机森林进行个体化风险预测
|
23天前
|
机器学习/深度学习 供应链 算法
智能供应链中的预测算法:理论与实践
智能供应链中的预测算法:理论与实践
126 1
|
23天前
|
移动开发 资源调度 监控
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
291 0
|
12月前
|
机器学习/深度学习 人工智能 算法
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
|
SQL 存储 安全
红蓝对抗-基础学习
安全是一个整体,正如木桶定律,最短的木板是评估木桶品质的标准,安全最薄弱环节也是决定系统好坏的关键。而网络红蓝军对抗的目的就是用来评估企业安全性,有助于找出企业安全中最脆弱的环节,提升企业安全能力的建设。
|
人工智能
降低损失挽救生命,用人工智能对抗自然灾害
人们长久以来一直将称之视为纯粹突发的极端事件。但实际上,成千上万条微妙且缓慢推进的线索,早已指明了自然灾害发生的可能性与严重程度。
98 0
降低损失挽救生命,用人工智能对抗自然灾害
|
人工智能
用增强的联邦学习应对药物发现数据小和偏的困境
用增强的联邦学习应对药物发现数据小和偏的困境
110 0

热门文章

最新文章