被称为DeepStack的、会玩扑克的人工智能系统,其背后研究人员表示,这是第一个在单挑无限模式下战胜人类职业扑克玩家的算法。这个说法如果属实,将标志着人工智能系统发展的一个重要里程碑。
击败人类职业扑克玩家不同于人工智能过去在智力竞赛节目Jeopardy或者围棋等游戏中战胜人类对手的成功,因为每个玩家都只能掌握游戏状态不完整的一部分,并需要一个导航战术程序,例如基于不对称的信息虚张声势。
DeepStack是University of Alberta和两所捷克大学的研究人员合作的成果,他们在一份新的非同行评审的论文中表示,这是“第一个在单挑无限模式下战胜人类职业扑克玩家的计算机程序。”
新的一页已经展开,卡内基梅隆大学竞技性人工智能扑克团队的研究人员宣布将进行一场由他们的系统和四位职业人类扑克玩家——Jason Les、Dong Kim、Daniel McAulay和Jimmy Chou的对抗赛,这四个人类职业玩家加在一起将在20天内和Libratus玩120,000手单挑无限德州扑克。
Libratus是卡内基梅隆大学开发的Claudico的继任者,它在2015年和同样四位玩家对抗,在超过8万手牌后失利。微软研究院为这场比赛捐赠了10万美元的奖池。
虽然Claudico和DeepStack使用一种称为“反事实遗憾最小化”的技术通过卡片游戏策略进行推理,但DeepStack的制造商说,它的系统“采用了一种完全不同的方法”来处理信息不对称,包括在决定保留哪张牌的时候模拟“直觉”。
Libratus和DeepStack都被描述为使用新奇的方法来实现纳什均衡,卡内基梅隆大学将其定义为“一对战略,每个玩家,只要一个玩家的策略保持不变,就不会有玩家因为改变战略受益。”
DeepStack的研究人员写道,“DeepStack算法试图在这个游戏中计算和使用游戏的低利用率策略,即求解一个近似的Nash均衡。只有在游戏中实际出现的公共树的状态时,DeepStack在游戏过程中计算这个策略。本地计算的能力限制了DeepStack在游戏中推理能力,如果不将游戏中的10项权力抽象的160个决策点减少为14项权力,计算的量对于现有的算法来说就太大了。”
DeepStack接受了来自国际扑克联盟(International Federation of Poker)的33名职业扑克玩家的评估。每个参与者被要求在一个月内参加3000场比赛。
DeepStack研究人员写道,“33位职业玩家总共参加了44,852场比赛,11位玩家完成了所要求的3000场比赛。在所有的比赛中,DeepStack赢得了492 mbb / g(每场比赛的超大盲注)。从零开始有四个标准背离,因此非常引人注目。”
卡内基梅隆大学表示,Libratus采用更快的方法来找到纳什均衡,以及开发更好的终结策略,这是由匹兹堡超级计算中心的Bridges超级计算机支撑实现的。
Sandholm表示,“我们正在疯狂推动超级计算机。”Sandholm表示,Libratus使用了1500万个核心小时的计算,而Claudico只有300万个。
卡内基梅隆大学的比赛今天上午11点在Pittsburgh Rivers Casino开始,将在晚上7点左右结束。