智造观点
日前,Facebook人工智能研究和卡内基梅隆大学日前发表在《科学》杂志上的一篇论文,介绍了Pluribus这款AI扑克机器人,它击败了15位扑克专业人士,是第一个在基准游戏中持续击败两个以上人类玩家的人工智能。
AI又双叒叕超神了!
尽管AI在很多1VS1的游戏中具有相当的优越性,但在复杂的多人游戏版本纸牌游戏中,人类还是一直保持着自己的优势。
直到现在,一个新的AI出现了。
这款名叫Pluribus的AI机器人,在6人德州扑克中碾压了人类的顶尖高手。
目前正在各大网站刷屏的Facebook人工智能研究和卡内基梅隆大学日前发表在《科学》杂志上的论文,介绍了Pluribus创建。这是一款扑克玩家AI,Facebook称其是第一个击败德州扑克(扑克有时用来衡量人工智能或游戏理论表现)专业人士的AI。
Pluribus击败的15位人类专业人士,都是人类中的顶尖选手,每个人曾经赢得过至少100万美元的扑克比赛。例如2000年世界扑克锦标赛冠军克里斯“耶稣”Ferguson和4次世界扑克巡回赛冠军达Darren Elias。
对此,最早测试Pluribus的玩家兼它的手下败将Darren表示,几周前,Pluribus还是一个牌技平庸的小可怜。“它的主要优势在于它能够使用混合策略,这与人类试图做所的事情是一样的。而且Pluribus完全随机的方式执行此操作并始终如一地执行此操作。”
Facebook AI声称,Pluribus是第一个在基准游戏中持续击败2个以上人类玩家的人工智能。
那么这款AI机器人训练成本如何?
研究人员表示,Pluribus只需花费150美元的云计算进行培训,即可实现其目标。
而且,超过20小时的训练产生的人工智能玩家,就可以比人类顶级玩家更好。
Pluribus建立在Libratus的基础之上。Libratus是卡内基梅隆在2017年制作的AI扑克玩家,曾经历时20天战胜了4为德州扑克顶级选手,但是只能1V1。
Pluribus是怎样练成的?
就像AI被训练玩Pluribus之前的Go、Dota II和星际争霸II等游戏一样,AI可以通过与自己比赛进行训练。
“Pluribus战略的核心是通过自我游戏来计算的,在这个过程中,AI与其自身的副本进行比赛,而没有任何人类或先前AI游戏的数据用作输入。”论文写道,“人工智能从零开始,随机地玩游戏,然后随着它决定了哪些行为,以及这些行为的概率分布,逐渐地改进,与早期版本的策略相比,会产生更好的结果。”
在研究人员的测试中,Pluribus赢得了5场人类和1场AI比赛,以及5场AI和1场人类比赛。Facebook AI表示,如果每个芯片价值1美元,那么Pluribus每手的收益大约为5美元,每小时与5个人玩游戏的收益大约为1000美元。
“根据具体情况,它考虑的具体下注数量在1到14之间不等。”《科学》杂志写道:“虽然多人可以将自己的赌注限制在100美元到10000美元之间,但实际上玩无限制扑克时,对手并不局限于这几个选项中的一个。”
在这里必须说明,实验设置并不完全反映普通的6人扑克游戏。与真实游戏不同,筹码数量并不是一个持续的总数:对于每一手牌,每个玩家都会获得10000个筹码,无论输赢,他们也会在下一手牌中获得10000个筹码。
Facebook人工智能研究科学家NoamBrown说,显然这限制了长期战略的可能,事实上“机器人并没有在对手身上寻找可以利用的弱点”。
但仅仅因为它不是基于对对手个人习惯或风格的长期观察,并不意味着它的策略是肤浅的。相反,它可以说更令人印象深刻,并从另一个角度来看待游戏,即存在一种不依赖行为暗示或利用个人弱点的获胜策略。
在扑克中击败人类只是一个开始,作为一名优秀的选手,Pluribus更重要的是一个AI代理可以在像6人扑克这样复杂的东西上实现超人表现的示范。
“许多现实世界的互动,如金融市场、拍卖和交通导航,可以类似地建模为多代理互动。”Facebook在其博客中写道。
来源:微信公众号 人工智能观察