人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!

简介: 最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。

微信图片_20220109135122.png


近年来人工智能发展迅猛,很多重复性的工作都被AI自动化了,人类工作要被机器替代的说法也「甚嚣尘上」,而现在,打打扑克也不行了?

 

最近,Facebook 的研究人员开发了一个名为「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州扑克玩的相当溜。

       微信图片_20220109135125.png        


根据Facebook的说法,这个框架在单挑无限制的德州扑克游戏中明显优于人类表现,而且使用的领域知识比之前任何扑克人工智能都要少

 

他们断言 ReBeL 是开发通用多代理交互技术的一种方法,该算法可以部署在大规模、多代理环境中,预期的应用范围也很广,从拍卖、谈判、网络安全到自动驾驶都能用上。


AlphaZero在不完全信息游戏中表现「差点意思」


目前,将强化学习与搜索相结合,在人工智能模型训练和测试方面,已经取得了一些进展。 


强化学习代理是通过最大化回报来学习的,而搜索是从开始到目标状态的导航过程。例如,DeepMind 的 AlphaZero 使用强化学习和搜索技术在国际象棋、围棋等游戏中实现了SOTA效果。 


    微信图片_20220109135127.png      


但是之前的组合方法在应用于不完全信息的游戏如扑克(甚至是石头、剪子、布)时就不那么奏效了,因为它做出了一些在这种情况下不成立的假设 


任何给定动作的价值取决于它被选择的概率,更一般地说,取决于整个游戏策略,而围棋游戏的搜索空间是有限的,并且每一个动作的价值可以在被选之前评估出来。 


基于信念的递归学习击败顶尖人类玩家


ReBeL将「游戏状态」的概念进行了扩展,它包括了代理基于常识和其他代理的政策对他们可能处于何种状态的置信度 


ReBeL通过自我强化学习训练了两个网络:一个价值网络和一个政策网络。


它在自我对弈中使用两种模型进行搜索。结果是一种简单,灵活的算法,研究人员声称该算法能够在大规模的两人不完全信息游戏中击败顶尖的人类玩家。 从更高层次上来讲,ReBeL 运行于公共置信状态而不是世界状态(即游戏状态)。


公共置信状态(PBSs)将「状态价值」的概念推广到像扑克这样的不完全信息游戏中,PBS是在可能的动作和状态的有限序列(也称为历史记录)上的常见知识概率分布,可提供发生不同结果的可能性。


在完全信息游戏中,PBS可以提取到历史记录,而在两人零和游戏中,PBS可以有效地提取到世界状态。扑克中的PBS是玩家可以做出的一系列决定,以及特定手牌,底池和筹码时他们的结果。      


 

网络异常,图片无法展示
|


ReBeL在每个游戏开始时都会生成一个与原始游戏相同的「子游戏」,只是它起源于最初的PBS。该算法通过运行「均衡查找」算法的迭代并使用训练后的价值网络在每次迭代中取近似值来击败对手。  


     微信图片_20220109135130.png       


与世界上最好的单挑扑克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的时间超过了2秒,决策所需的时间从不超过5秒


Facebook以前的扑克游戏系统Libratus的最高得分为147,而ReBeL对人类的平均每场比赛盲注(强迫下注)得分为165(标准差为69)。  


   微信图片_20220109135132.png 


担心被拿去赌钱,Facebook决定不公开源码


在实验中,研究人员对ReBeL进行了单挑无限制,Liar’s Dice和残局游戏的基准测试,这是无限制德州扑克的一种变体,两个玩家可以在四轮投注中的前两轮进行检查或叫牌。 


研究小组使用了多达128台带有8个显卡的电脑来生成模拟游戏数据,并在训练期间随机分配赌注和堆栈大小(从5,000到25,000个芯片)。ReBeL 在整场比赛中接受训练,并且有20,000美元可以下注。 


出于对作弊的担心,Facebook 团队决定不发布用于扑克的 ReBeL 代码库。相反,他们将 Liar’s Dice 的实现开放了。Facebook的研究人员相信ReBeL将使得德州扑克在强化学习研究领域更受欢迎。 


「虽然人工智能算法已经存在,可以在扑克游戏中取得超人的表现,但这些算法通常假设参与者拥有一定数量的筹码或使用一定的赌注大小」。 而在实战中,你的筹码数量是不定的,所以需要重新训练算法,这种情况下想进行实时对战就有困难了。但是,ReBeL 可以在几秒钟内计算任意任意赌注大小的策略


参考链接:

https://arxiv.org/pdf/2007.13544.pdfhttps://venturebeat.com/2020/07/28/facebook-develops-ai-algorithm-that-learns-to-play-poker-on-the-fly/

相关文章
|
4月前
|
人工智能 安全 API
20 万奖金池就位!Higress AI 网关开发挑战赛参赛指南
本次赛事共设三大赛题方向,参赛者可以任选一个方向参赛。本文是对每个赛题方向的参赛指南。
463 37
|
4月前
|
人工智能 运维 安全
加速智能体开发:从 Serverless 运行时到 Serverless AI 运行时
在云计算与人工智能深度融合的背景下,Serverless 技术作为云原生架构的集大成者,正加速向 AI 原生架构演进。阿里云函数计算(FC)率先提出并实践“Serverless AI 运行时”概念,通过技术创新与生态联动,为智能体(Agent)开发提供高效、安全、低成本的基础设施支持。本文从技术演进路径、核心能力及未来展望三方面解析 Serverless AI 的突破性价值。
|
4月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5734 79
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
651 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
4月前
|
人工智能 IDE 开发工具
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
从6人日到1人日:一次AI驱动的客户端需求开发实战
|
4月前
|
人工智能 小程序 开发者
【一步步开发AI运动APP】十二、自定义扩展新运动项目03
继【一步步开发AI运动小程序】后,我们推出新系列【一步步开发AI运动APP】,助开发者打造高性能、优体验的AI运动应用。本文详解自定义扩展运动分析器的统一管理实现,提升代码复用性与可维护性,涵盖APP与小程序插件差异及完整代码示例,助力AI运动场景深度拓展。
|
4月前
|
人工智能 Java 测试技术
【556AI】(一)IntelliJ IDEA全流程AI设计开发平台
556AI支持IDEA、PHPSTORM、PYCHARM最新版 AI平台定位是开发大型软件项目,大型软件项目代码AI生成引擎,OA/ERP/MES 百万行代码一次性AI生成 支持axure原型导入预览,集成AI软件设计/AI软件开发/AI软件测试整个流程 支持 若依 JEECG SmartAdmin THINKPHP Django等多种JAVA/PHP/python框架 实现了java php python 的统一增强行调试方式 可以链接多个AI大模型,进行AI生成代码
574 8
|
4月前
|
人工智能 自然语言处理 数据可视化
smardaten AI + 无代码开发实践:基于自然语言交互快速开发【苏超赛事管理系统】
苏超赛事管理系统基于smardaten无代码平台,通过AI生成与可视化配置,实现球队、赛程、积分等全流程数字化管理,提升效率、优化体验、支持数据可视化,助力赛事高效运营。
smardaten AI + 无代码开发实践:基于自然语言交互快速开发【苏超赛事管理系统】
|
4月前
|
人工智能 Cloud Native 自然语言处理
拔俗AI智能体服务开发:你的7x24小时数字员工,让企业效率飙升的秘密武器
在“人效为王”时代,企业面临服务响应慢、成本高、协同难等痛点。阿里云AI智能体以自主决策、多模态交互、持续学习三大引擎,打造永不疲倦的“数字员工”,实现7×24小时高效服务,助力企业降本增效、驱动创新增长。(238字)
353 0
|
4月前
|
人工智能 小程序 搜索推荐
【一步步开发AI运动APP】十二、自定义扩展新运动项目2
本文介绍如何基于uni-app运动识别插件实现“双手并举”自定义扩展运动,涵盖动作拆解、姿态检测规则构建及运动分析器代码实现,助力开发者打造个性化AI运动APP。

热门文章

最新文章