备案控制台

开发者社区人工智能文章正文

机器博弈 (三) 虚拟遗憾最小化算法

2023-08-05 131

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器博弈 (三) 虚拟遗憾最小化算法

虚拟遗憾最小化算法(Counterfactual Regret Minimization)

如果不能遍历计算机所有节点的遗憾值，那么可以采用虚拟遗憾最小化算法来进行模拟计算。
假设：

集合A 是博弈中所有玩家所能采用的行为集(如在石头-剪刀-布游戏中出石头、出剪刀或出布三种行为)
I 为信息集，包含了博弈的规则以及玩家采取的历史行动，在信息集I 下所能采取的行为集合记为A ( I ) 。

有了这些定义之后，我们现在来计算虚拟遗憾：

当采取策略σ时，其所对应的行动序列h 的虚拟价值(Counterfactual Value)如下计算(注：行动序列h 未能使博弈进入终结局势)：

当采取策略σ 时，其所对应的行动序列h 的虚拟价值(Counterfactual Value)如下计算(注：行动序列h 未能使博弈进入终结局势)

我们首先去计算其他玩家在产生行动序列h 中他们的概率值是多少，乘以在这个策略下，从行动序列h 进入到终止局势z 的概率，最终再乘以玩家i 在终止局势z 的概率。之后对终止局势做一个遍历，把它的乘积做一个累加。

玩家i采取行动a 所得到的虚拟遗憾值：

行动序列h 所对应的信息集I 遗憾值为：

玩家i 在第T 轮次采取行动a 的遗憾值为：

同样，对于遗憾值为负数的情况，我们不予考虑，记：

在T + 1 轮次，玩家i ii选择行动a 的概率计算如下：

玩家i 根据遗憾值大小来选择下一时刻行为，如果遗憾值为负数，则随机挑选一种行为进行博弈。

例子-库恩扑克(Kunh’s pocker)

库恩扑克是最简单的限注扑克游戏，由两名玩家进行游戏博弈，牌值只有1，2和3三种情况。
每轮每位玩家各持一张手牌，根据各自判断来决定加定额赌注。
游戏没有公共牌，摊牌阶段比较未弃牌玩家的底牌大小，底牌牌值最大的玩家即为胜者。
游戏规则：

库恩扑克(Kunh’s pocker)：以先手玩家(定义为玩家A AA)为例的博弈树：

从初始节点开始，1、2、3分别表示玩家A AA手中的牌，当玩家拿了1之后，玩家B BB只能拿2或者3。玩家A AA选择过牌还是加注，玩家B BB也可以选择过牌还是加注。依次进行下去，就构建了博弈树。

在这个博弈树里面，总共的信息集与12个：{1,1P,1B,1BP,2,2P,2B,2BP,3,3P,3B,3BP}。
每个信息集由不同路径可以到达。如信息集1PB可通过如下路径到达：

可见信息集1 P B 1PB1PB所对应的行动序列为{P,B}

在该问题中，到达每个信息集的路劲均唯一，因此所有信息集仅对应一个行动序列。

有了上述定义之后，我们可以采取如下算法进行策略选择：

初始化遗憾值和累加策略表为0
采用随机选择的方法来决定策略
利用当前策略与对手进行博弈
计算每个玩家采取每次行为后的遗憾值
根据博弈结果计算每个行动的累加遗憾值大小来更新策略
重复博弈若干次
根据重复博弈最终的策略，完成最终的动作选择

计算1PB的遗憾值

假设初始情况下，两个玩家都以随机选择的策略进行决策，即在任一节点，都以50%的概率分别选择过牌和加注

则最终选择过牌的虚拟价值为：

在信息集{ 1 P B } 上采取“过牌”的遗憾值

库恩扑克的博弈共有12个信息集，对应上图中的正方形和三角形
通过反复迭代计算，可以得到到达各个信息集应采取行动的概率：

对于玩家A AA而言，库恩扑克的混合策略纳什均衡的理论解如下(α ∈ [ 0 , 1 / 3 ]

可见，算法得到的解与理论得到的解之间较为接近，验证了算法的有效性。

文章标签：

人工智能

算法

关键词：

算法博弈

算法虚拟

算法机器

算法最小化

机器博弈遗憾最小化算法

小小何先生

目录

相关文章

1647163554836788

|

8天前

|

JavaScript 前端开发算法

MVVM模型，虚拟DOM和diff算法

1.MVVM是前端开发领域当中非常流行的开发思想。（一种架构模式）目前前端的大部分主流框架都实现了这个MVVM思想，例如Vue,React等2.虽然Vue没有完全遵循MVVM模型，但是Vue的设计也受到了它的启发。Vue框架基本上也是符合MVVM思想的 3.MVVM模型当中尝到了Model和View进行了分离，为什么要分离？

1647163554836788

197 0 0

笨笨胡小巴

|

8天前

|

机器学习/深度学习算法搜索推荐

【解密算法：时间与空间的博弈】（中）

【解密算法：时间与空间的博弈】

笨笨胡小巴

45 0 0

笨笨胡小巴

|

8天前

|

存储算法

【解密算法：时间与空间的博弈】（上）

【解密算法：时间与空间的博弈】

笨笨胡小巴

63 0 0

子玉欸

|

6月前

|

JavaScript 算法前端开发

什么是虚拟DOM？什么是diff算法？

什么是虚拟DOM？什么是diff算法？

子玉欸

33 0 0

电力程序小学童

|

8天前

|

算法调度决策智能

基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理（matlab代码）

基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理（matlab代码）

电力程序小学童

15 1 1

我菜就爱学

|

8天前

|

算法

数学算法总结(面积、博弈）

数学算法总结(面积、博弈）

我菜就爱学

16 0 0

阿珊和她的猫

|

8天前

|

缓存 JavaScript 算法

Vue.js中的diff算法：让虚拟DOM更高效

Vue.js中的diff算法：让虚拟DOM更高效

阿珊和她的猫

48 0 0

笨笨胡小巴

|

8天前

|

存储算法编译器

【解密算法：时间与空间的博弈】（下）

【解密算法：时间与空间的博弈】

笨笨胡小巴

33 0 0

天玄TX

|

9月前

|

JavaScript 算法前端开发

详解什么是虚拟DOM？以及diff算法

详解什么是虚拟DOM？以及diff算法

天玄TX

79 0 0

阿里云大数据Al技术

|

8天前

|

机器学习/深度学习人工智能自然语言处理

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法

近日，阿里云人工智能平台PAI与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议EMNLP2023上发表基于机器翻译增加的跨语言机器阅读理解算法X-STA。通过利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间，从而进行深度级别的辅助以增强跨语言传输能力。同时，提出了一种改进的交叉注意力块，称为梯度解缠知识共享技术。此外，通过多个层次学习语义对齐，并利用教师指导来校准模型输出，增强跨语言传输性能。实验结果显示，我们的方法在三个多语言MRC数据集上表现出色，优于现有的最先进方法。

阿里云大数据Al技术

482 0 0

热门文章

最新文章

R语言聚类算法的应用实例

基于DCT和扩频的音频水印嵌入提取算法matlab仿真

R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

揭秘深度学习中的优化算法

椭圆曲线密码算法（ECC）：数学之美与安全之钥

圆堆图circle packing算法可视化分析电商平台网红零食销量采集数据

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

用N-S流程图表示算法

对称密钥加密算法和公开密钥加密算法有什么区别

分布式(计算机算法)

视觉智能平台常见问题之其他算法定制化开发如何解决

使用Python实现图像处理中的边缘检测算法

利用机器学习算法改善电商推荐系统的效率

Python基础算法解析：K最近邻算法

【数据结构与算法】—— 手撕红黑树

【优选算法】—— 字符串匹配算法

【优选算法】—— 滑动窗口类问题

【算法】——全排列算法讲解

【排序算法】数据结构排序详解

数据结构——排序算法之快速排序

相关课程

更多

相册服务中的故事生成算法介绍

Go语言核心编程 - 数据结构和算法

神经网络概览及算法详解

机器阅读技术与应用

相关电子书

更多

数据+算法定义新世界

袋鼠云基于实时计算的反黄牛算法

Alink：基于Apache Flink的算法平台

相关实验场景

更多

使用Swing算法实现商品推荐

TLS1.3的后量子算法集成

RSA密码算法设计与实现

欧拉图的构造性证明与算法实现

推荐系统入门之使用ALS算法实现打分预测

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考