相对于围棋,德州扑克的非完美信息给了人工智能更大的压力。
继AlphaGo披着“Master”在中韩围棋界大获全胜后,德州扑克也不幸沦陷,只不过这次的主角并不是AlphaGo。
近日,来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的10位研究员在arXiv网站(一个收集物理学、数学、计算机科学与生物学论文预印本的网站)上传了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注德州扑克中击败人类玩家的新算法“DeepStack”。
在围棋等棋类游戏中,玩家能够获得的确定性信息是对称的,而德州扑克不同,这是一种包含了欺骗、推测的非完美信息游戏。在德州扑克的游戏中,玩家只能掌握自己手上的牌,通过推理非对称的信息,从而与对手进行博弈。而这里就是该论文的意义所在,论文中提到“DeepStack是一种通用算法,可用于一大类非完整信息的序列博弈 ”。
不同于过去研究人员所采用的一种压缩型的策略,这个加拿大和捷克的合作团队在开发新算法“DeepStack”过程中更注重培养人工智能出牌时的“直觉”。在运用深度学习,反复自我博弈之后,“DeepStack”学会了在每一个具体情境出现时进行推理,这种做法非常接近于人类玩家的习惯。
去年年末,该团队邀请了33名专业扑克选手与“DeepStack”进行了44852次博弈。在最后的结果中,DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blinds per game,用于衡量扑克玩家表现的指数,一般职业玩家认为50mbb/g是个门槛,750mbb/g就是对手每局都弃牌的赢率)。
原文发布时间:
2017-01-11 10:55
本文作者:
韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。