关于德扑AI有两个核心问题: "它是如何工作的?" 和" 为什么这么玩能赢?" 对于第一个问题的答案是一些算法的名字(i.e. Counterfactual Regret Minimization)。对于第二个问题的答案是博弈论中的一些概念(i.e. Nash Equilibrium)。网上已经有很多好的文章,有兴趣的同学可以看看。
但如果你跟我一样,同时对AI和德扑都非常感兴趣,除此之外肯定还有一大堆跟进问题。出于好奇,我最近看了不少相关资料。以下是我认为一些比较有趣的问题:
1. 网上都说AI太厉害了,人基本上没有希望赢
这个比赛还有什么看点吗?
我认为还有好几个有趣的观察点。其中我最感兴趣的一个问题是: “中国队的最终结果是否能够接近于美国队的结果?”
美国的4个选手最终的结果是-14BB/100。也就是说,平均每跟AI打100手牌,就会输掉14个大盲注。中国战队是否可以超越这个成绩,还是很有悬念的。
2. BB/100是什么? 我只听说AI上次赢了好几百万
钱数是个虚荣数据,完全没有意义的。其实第一次比赛并没有用真钱,所以"几百万"只是一个为了传媒效应而随机选出来的倍数。如果当时他们玩的是1分/2分,结果也是一模一样的。只不过标题如果是“AI赢了人类73.2块钱”,听上去就没有那么厉害了。
真正评价一个选手的实力,也就是几个基本指标。比赛玩家最终看ROI(投资回报率),现金玩家最终看BB/100。
BB/100就是每打100手牌,你平均会赢或会输多少个大盲注。例如,如果你平常跟朋友打5块/10块的局,每次buyin1000,每周打200手牌,打一年(~50周),然后最后水上5000块钱,那么你的胜率就是 5BB/100。
AI德扑让我最兴奋的一点,是我们终于可以去客观衡量一个牌手的实力。
国际象棋有ELO,围棋有段级,但德州扑克一直以来都没有级别标准。我们今天讨论某某德州高手,都还用一些大型比赛成绩来代表实力。这是非常不科学的。 如果我们愿意承认AI已经接完美战略,那么每个人的对战结果其实就是一个可对比的实力分数。
3. 中国队和美国队的实力比起来如何?
首先这里有一个需要解释的关键点: 不同类型的德州扑克玩法是很不一样的。锦标赛和现金局不一样;1v1,6人桌,9人桌不一样;线上和线下比赛也很不一样。当然这些游戏之间有很多基础理论是相同的。十几年前,因为整体水平低,一个懂的基本理论的玩家无论玩什么游戏类别都有很大优势的。但如今因为竞争压力,很多职业选手都选择专研一两个垂直领域。
拿游泳做比喻: 一个优秀的游泳运动员在所有项目中都会比普通人快很多。但在奥林匹克级别竞争中,400m的自由泳世界冠军也很难在50m蛙泳中拿到好成绩。
国外的德州扑克生态环境近年来并不好,能赚钱的地方越来越少,竞争也越来越激烈。美国比赛的4位选手都是线上1v1专家。
中国土豪多,可以支持良好的线下现金局和线下多桌锦标赛。在这两种形式中,中国也有世界级高手。但跟AI玩的是1v1。
我跟这次战队中一半的选手认识,并一起打过牌。毫无疑问的是他们都有超强的学习能力。不管是打德扑,做企业,做投资,他们都可以在很短时间内成为行业专家。听说杜悦老师在带队急训1v1打法,希望他们可以创造奇迹!
4. 这次比赛有多少运气成分?
美国比赛打了12万手牌,这次中国比赛“只”打3万手牌,虽然如此,运气成分还是是非常少的。
3万手的概念大概是这样的:假设你每天晚上都跟一帮朋友打4个小时牌,一周5次,一年也打不了3万手。
另外Libratus的比赛环境还有一些降低随机性的功能。
5.AI的打法跟人有很大差别吗?
我们大概可以把德州扑克玩家分为三类:
Group 1: 初学者 - 懂得基本游戏规则,赔率。
Group 2: 业余玩家 - 懂得EV,和一些其它的基本游戏元素(比如筹码量,位置,和牌力等因素的运用)。
Group 3: 高手/专业玩家
Group 2 与 Group 1的最大差别是学会怎样用期望价值(EV)来做决策。Group 3与 Group 2的最大区别是意识到不能只考虑当下手牌,而要考虑整个范围(range),并达到战略上的平衡。
有趣的是,AI的思维方式跟顶级高手是相似的。区别是AI可以做到更精准的范围推测与计算。
6. AI会诈唬 (bluff) 吗?
当然。这个问题背后有个错误假设,就是诈唬的关键在于心理与勇气。其实诈唬更多是一道数学题: “对于我的范围与对手的范围,如果这手牌重现10次,我诈唬 0次,3次,或10次,哪个期望价值最高?”
7. AI可以读牌吗?
同样与上,这个问题的假设是读牌主要靠观察肢体语言或眼神。但其实读牌本质上就是在做范围预估。
如果你能搞懂AI的算法为什么work,你已经是个德州高手了。
8. 用一些“奇诡”的战略有没有可能把AI搞糊涂?
不可能。这个AI的原理就是试图去玩一种防守型完美战略,等着你来犯错误。从博弈论角度上,胡乱打法只是做到了“失去平衡”。
比如起手raise的数量很多都是在2-3个大盲之间。这个数字不是个惯例,是可以用数学原理证明的。如果你20个bb起raise,那么你就失去平衡了。"20bb 起raise"仅是一个很容易被AI利用的漏洞。
诈唬太多,下注太大,随机推all in,这些都是典型的“不平衡”战略。如果有选手试图用这些套路来扰乱AI,会输的很惨。
9. 这个AI机器人放到网上打牌岂不是赚爆了?
抛开技术问题(硬件成本,软件对接)不说,真的想靠一个1v1机器人赚大钱还是有难度的。线上高额1v1是个非常小的盘子,大部分玩家也会避开明显比自己厉害的对手。
前几年两个顶级高手Doug Polk 和 Ben Sulsky 对决了一次。最后Doug大胜(+25BB/100)。结果是什么呢?之后再也没有人愿意跟Doug打1v1比赛了,所以他就只能退休了。
另外,5-6年前网上就有很多可以打败90%的选手,并可以持续赚钱的机器人了。想靠德州扑克赚钱,最重要的其实不是打遍天下无敌手,而是选桌。
10. AI具体用什么手段打败人类
GTO打法虽然是“防守型”打法。但并不是说不进攻,而是找到平衡点。很多场景下,人类的打法才是过于保守的,所以为了达到真正平衡,AI会比人选择更狠,更大胆的套路。
美国参赛选手赛后的采访中,提到了一些AI战术上的特点,包括经常超池下注(overbet),给对手造成极大的压力,并能做出人类(因为心里素质缺陷)做不到的(但是正确的)bluff。
我之前看过一个美国队牌手的采访,他们说AI跟Tom Duan, Doug Polk这类牌手有很多相似之处。但AI比他们更冷血,更可怕。
如果你不熟悉以上牌手的风格,可以看一个例子:
(Sammy: 我手持两对,在1v1中是非常强的一手牌。对手的范围有很多bluff,我bet也没有价值,不如check做一个陷阱,准备check call)
(Tom: 这里bluff1/2pot-2/3pot是赔钱的。相对来说fold可能是个更好的选择...
...但是还有一个选择是平常牌手不会考虑的。对手的范围里面有很多A,因此有同花或更强牌的可能性不大。这是一个capped range的情况。如果我这里打一个超pot的bluff,也许可以达到80%以上的弃牌率,EV更高...
All In!)
(Sammy: 呃... ... 虽然我有2对,其实我只能赢一个bluff。真的有人敢在这么危险的牌面上推出来一个超pot all in吗? 看来我只能good fold了)
(Tom: )
(Sammy: )
无论结果如何,这场比赛一定很精彩!
原文发布时间为:2017-04-07
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号