解读冷扑大师背后的AI算法和博弈论:CFR算法是核心

简介:
本文来自AI新媒体量子位(QbitAI)

昨天下午,量子位在中关村举办了一个技术沙龙,邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等,从技术和实战的角度,对德州扑克人机大战进行解读。

以下是李天放对德州扑克AI的技术解读:


文字版本整理如下:

AI算法和博弈论,这两个交叉点还是有一点难度的。

先从博弈论开始。

大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克,翻硬币,剪刀石头布这类游戏里面,纳什平衡点的定义是:如果双方都在用一个比较好的战略,任何一方做出调整结果都会更糟糕,也就是存在一个平衡点,使得两个人都不能再进步。

我们用一个简单的游戏解释。

如果我们玩一手剪刀石头布,可能靠运气;玩二十万手,就要看战略是什么。如果我们想解这个问题,也是很简单,下面这个就是所谓的完美战略:

· 33%剪刀 33%石头 33%布

· 无论对手用什么战略,都不可能战胜我们

· 但我们也赢不了…

然而想要接近一个真正的完美战略是非常难的,大部分人有些偏好,更接近的可能是这样一个情况,对手比较笨不知道能出剪刀:

· 假设对手#1:从来不出剪刀,50%布,50%石头

· 我们的老战略有问题么?(各33%)

老战略可能还是不输的,但也不是最佳战略(GTO)。纳什平衡的意思是双方都不能改进,如果知道对手从来不出剪刀,我们的战略是能改进的。针对上面的对手#1,我们的战略可以改成:50%剪刀,50%布。

为什么不用100%布的战略?因为对方可能也调整成100%布。使用50%剪刀,50%布的战略至少可以比打平做的更好。

从博弈论来说,我们找到了对手的弱点,但没有暴露自己的弱点。也就是说,我们找到了一个新的平衡点。

这就是Libratus在做的事情。

相比于石头剪刀布,一对一的德州扑克,是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点?这是此类AI算法的核心。

CounterFactual Regret Minimization(CFR,反事实遗憾最小化),这是一个类似强化学习的算法,但是更高效。让AI之间对战德扑,采用随机的策略,然后每局过后看看在什么地方后悔了,然后尝试不同的战略,再在决策点上复盘。

这个算法与人类学习德州类似:累积经验、评判自己的选择,但需要注意的是,这里正确的“后悔点”非常重要。德州扑克有很强的随机性,所以很容易陷入错误的学习方式。

算法很简单,问题是无限德州的空间太大了,复杂度是10的160次方。有几种解决方案:合并简化+CFR(Claudico),CFR+“直觉”(DeepStack),CFR+End Game Solver+RL(Libratus)。

总结一下:

· CFR类似于强化学习。权重调整基于概率。

· AI的战略和学习方式和职业牌手相似,但是更准确。

嘉宾介绍

李天放

创新工场AI工程院技术负责人,课程格子的创始人,前微软工程师,以及著名大数据公司Palantir早期成员。德州扑克职业玩家。

本文作者:问耕
原文发布时间:2017-04-09
相关文章
|
4月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
2月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
7月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
809 3
|
4月前
|
机器学习/深度学习 人工智能 算法
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
 AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
|
3月前
|
机器学习/深度学习 算法 网络性能优化
【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现)
【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现)
119 0
|
4月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
3月前
|
人工智能 算法 计算机视觉
只需完成手画线稿,让AI算法帮你自动上色
本文介绍了如何利用图像处理技术生成手绘风格图像及自动上色的方法。内容涵盖图像灰度化、梯度调整、虚拟深度实现手绘效果,以及使用 Python 编程实现相关算法。此外,还介绍了 AI 工具 Style2Paints V4.5,其可为线稿自动上色并支持多种线稿类型,如插画和手绘铅笔稿,适用于艺术创作与图像处理领域。
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI视觉新突破:多角度理解3D世界的算法原理全解析
多视角条件扩散算法通过多张图片输入生成高质量3D模型,克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式,结合跨视图注意力机制与一致性损失优化,大幅提升几何精度与纹理保真度,成为AI 3D生成的重要突破。
394 0
|
7月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
900 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现

热门文章

最新文章

下一篇
oss云网关配置