机器博弈 (三) 虚拟遗憾最小化算法

简介: 机器博弈 (三) 虚拟遗憾最小化算法

虚拟遗憾最小化算法(Counterfactual Regret Minimization)


  • 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
  • 假设:


  • 集合A 是博弈中所有玩家所能采用的行为集(如在石头-剪刀-布游戏中出石头、出剪刀或出布三种行为)
  • I 为信息集,包含了博弈的规则以及玩家采取的历史行动,在信息集I 下所能采取的行为集合记为A ( I )

image.png

有了这些定义之后,我们现在来计算虚拟遗憾:


当采取策略σ时,其所对应的行动序列h 的虚拟价值(Counterfactual Value)如下计算(注:行动序列h 未能使博弈进入终结局势):


当采取策略σ 时,其所对应的行动序列h 的虚拟价值(Counterfactual Value)如下计算(注:行动序列h 未能使博弈进入终结局势)

image.png

 我们首先去计算其他玩家在产生行动序列h 中他们的概率值是多少,乘以在这个策略下,从行动序列h 进入到终止局势z 的概率,最终再乘以玩家i 在终止局势z 的概率。之后对终止局势做一个遍历,把它的乘积做一个累加。

  • 玩家i采取行动a 所得到的虚拟遗憾值:

image.png

  • 行动序列h 所对应的信息集I 遗憾值为:

image.png

  • 玩家i 在第T 轮次采取行动a 的遗憾值为:

image.png

  • 同样,对于遗憾值为负数的情况,我们不予考虑,记:

image.png

  • T + 1 轮次,玩家i ii选择行动a 的概率计算如下:

image.png

  • 玩家i 根据遗憾值大小来选择下一时刻行为,如果遗憾值为负数,则随机挑选一种行为进行博弈。


例子-库恩扑克(Kunh’s pocker)


  • 库恩扑克是最简单的限注扑克游戏,由两名玩家进行游戏博弈,牌值只有1,2和3三种情况。
  • 每轮每位玩家各持一张手牌,根据各自判断来决定加定额赌注。
  • 游戏没有公共牌,摊牌阶段比较未弃牌玩家的底牌大小,底牌牌值最大的玩家即为胜者。
  • 游戏规则:


库恩扑克(Kunh’s pocker):以先手玩家(定义为玩家A AA)为例的博弈树:

  从初始节点开始,1、2、3分别表示玩家A AA手中的牌,当玩家拿了1之后,玩家B BB只能拿2或者3。玩家A AA选择过牌还是加注,玩家B BB也可以选择过牌还是加注。依次进行下去,就构建了博弈树。

  • 在这个博弈树里面,总共的信息集与12个:{1,1P,1B,1BP,2,2P,2B,2BP,3,3P,3B,3BP}。
  • 每个信息集由不同路径可以到达。如信息集1PB可通过如下路径到达:

image.png

  可见信息集1 P B 1PB1PB所对应的行动序列为{P,B}

  • 在该问题中,到达每个信息集的路劲均唯一,因此所有信息集仅对应一个行动序列。

有了上述定义之后,我们可以采取如下算法进行策略选择:

  1. 初始化遗憾值和累加策略表为0
  2. 采用随机选择的方法来决定策略
  3. 利用当前策略与对手进行博弈
  4. 计算每个玩家采取每次行为后的遗憾值
  5. 根据博弈结果计算每个行动的累加遗憾值大小来更新策略
  6. 重复博弈若干次
  7. 根据重复博弈最终的策略,完成最终的动作选择


计算1PB的遗憾值


  • 假设初始情况下,两个玩家都以随机选择的策略进行决策,即在任一节点,都以50%的概率分别选择过牌和加注

image.png

  • 则最终选择过牌的虚拟价值为:

image.png

  • 在信息集{ 1 P B } 上采取“过牌”的遗憾值


image.png

  • 库恩扑克的博弈共有12个信息集,对应上图中的正方形和三角形
  • 通过反复迭代计算,可以得到到达各个信息集应采取行动的概率:

  • 对于玩家A AA而言,库恩扑克的混合策略纳什均衡的理论解如下(α ∈ [ 0 , 1 / 3 ]

  可见,算法得到的解与理论得到的解之间较为接近,验证了算法的有效性。

相关文章
|
6月前
|
JavaScript 前端开发 算法
MVVM模型,虚拟DOM和diff算法
1.MVVM是前端开发领域当中非常流行的开发思想。(一种架构模式)目前前端的大部分主流框架都实现了这个MVVM思想,例如Vue,React等2.虽然Vue没有完全遵循MVVM模型,但是Vue的设计也受到了它的启发。Vue框架基本上也是符合MVVM思想的 3.MVVM模型当中尝到了Model和View进行了分离,为什么要分离?
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【解密算法:时间与空间的博弈】(中)
【解密算法:时间与空间的博弈】
|
6月前
|
存储 算法
【操作系统】虚拟存储管理-页面置换算法
【操作系统】虚拟存储管理-页面置换算法
526 0
|
6月前
|
存储 算法
【解密算法:时间与空间的博弈】(上)
【解密算法:时间与空间的博弈】
|
1月前
|
存储 算法 决策智能
【算法】博弈论(C/C++)
【算法】博弈论(C/C++)
|
3月前
|
存储 算法 调度
基于和声搜索算法(Harmony Search,HS)的机器设备工作最优调度方案求解matlab仿真
通过和声搜索算法(HS)实现多机器并行工作调度,以最小化任务完成时间。在MATLAB2022a环境下,不仅输出了工作调度甘特图,还展示了算法适应度值的收敛曲线。HS算法模拟音乐家即兴创作过程,随机生成初始解(和声库),并通过选择、微调生成新解,不断迭代直至获得最优调度方案。参数包括和声库大小、记忆考虑率、音调微调率及带宽。编码策略将任务与设备分配映射为和声,目标是最小化完成时间,同时确保满足各种约束条件。
|
5月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
350 6
|
5月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
5月前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
4月前
|
设计模式 JavaScript 算法
vue2 原理【详解】MVVM、响应式、模板编译、虚拟节点 vDom、diff 算法
vue2 原理【详解】MVVM、响应式、模板编译、虚拟节点 vDom、diff 算法
173 0
下一篇
无影云桌面