人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!

简介: 最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。

微信图片_20220109135122.png


近年来人工智能发展迅猛,很多重复性的工作都被AI自动化了,人类工作要被机器替代的说法也「甚嚣尘上」,而现在,打打扑克也不行了?

 

最近,Facebook 的研究人员开发了一个名为「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州扑克玩的相当溜。

       微信图片_20220109135125.png        


根据Facebook的说法,这个框架在单挑无限制的德州扑克游戏中明显优于人类表现,而且使用的领域知识比之前任何扑克人工智能都要少

 

他们断言 ReBeL 是开发通用多代理交互技术的一种方法,该算法可以部署在大规模、多代理环境中,预期的应用范围也很广,从拍卖、谈判、网络安全到自动驾驶都能用上。


AlphaZero在不完全信息游戏中表现「差点意思」


目前,将强化学习与搜索相结合,在人工智能模型训练和测试方面,已经取得了一些进展。 


强化学习代理是通过最大化回报来学习的,而搜索是从开始到目标状态的导航过程。例如,DeepMind 的 AlphaZero 使用强化学习和搜索技术在国际象棋、围棋等游戏中实现了SOTA效果。 


    微信图片_20220109135127.png      


但是之前的组合方法在应用于不完全信息的游戏如扑克(甚至是石头、剪子、布)时就不那么奏效了,因为它做出了一些在这种情况下不成立的假设 


任何给定动作的价值取决于它被选择的概率,更一般地说,取决于整个游戏策略,而围棋游戏的搜索空间是有限的,并且每一个动作的价值可以在被选之前评估出来。 


基于信念的递归学习击败顶尖人类玩家


ReBeL将「游戏状态」的概念进行了扩展,它包括了代理基于常识和其他代理的政策对他们可能处于何种状态的置信度 


ReBeL通过自我强化学习训练了两个网络:一个价值网络和一个政策网络。


它在自我对弈中使用两种模型进行搜索。结果是一种简单,灵活的算法,研究人员声称该算法能够在大规模的两人不完全信息游戏中击败顶尖的人类玩家。 从更高层次上来讲,ReBeL 运行于公共置信状态而不是世界状态(即游戏状态)。


公共置信状态(PBSs)将「状态价值」的概念推广到像扑克这样的不完全信息游戏中,PBS是在可能的动作和状态的有限序列(也称为历史记录)上的常见知识概率分布,可提供发生不同结果的可能性。


在完全信息游戏中,PBS可以提取到历史记录,而在两人零和游戏中,PBS可以有效地提取到世界状态。扑克中的PBS是玩家可以做出的一系列决定,以及特定手牌,底池和筹码时他们的结果。      


 

网络异常,图片无法展示
|


ReBeL在每个游戏开始时都会生成一个与原始游戏相同的「子游戏」,只是它起源于最初的PBS。该算法通过运行「均衡查找」算法的迭代并使用训练后的价值网络在每次迭代中取近似值来击败对手。  


     微信图片_20220109135130.png       


与世界上最好的单挑扑克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的时间超过了2秒,决策所需的时间从不超过5秒


Facebook以前的扑克游戏系统Libratus的最高得分为147,而ReBeL对人类的平均每场比赛盲注(强迫下注)得分为165(标准差为69)。  


   微信图片_20220109135132.png 


担心被拿去赌钱,Facebook决定不公开源码


在实验中,研究人员对ReBeL进行了单挑无限制,Liar’s Dice和残局游戏的基准测试,这是无限制德州扑克的一种变体,两个玩家可以在四轮投注中的前两轮进行检查或叫牌。 


研究小组使用了多达128台带有8个显卡的电脑来生成模拟游戏数据,并在训练期间随机分配赌注和堆栈大小(从5,000到25,000个芯片)。ReBeL 在整场比赛中接受训练,并且有20,000美元可以下注。 


出于对作弊的担心,Facebook 团队决定不发布用于扑克的 ReBeL 代码库。相反,他们将 Liar’s Dice 的实现开放了。Facebook的研究人员相信ReBeL将使得德州扑克在强化学习研究领域更受欢迎。 


「虽然人工智能算法已经存在,可以在扑克游戏中取得超人的表现,但这些算法通常假设参与者拥有一定数量的筹码或使用一定的赌注大小」。 而在实战中,你的筹码数量是不定的,所以需要重新训练算法,这种情况下想进行实时对战就有困难了。但是,ReBeL 可以在几秒钟内计算任意任意赌注大小的策略


参考链接:

https://arxiv.org/pdf/2007.13544.pdfhttps://venturebeat.com/2020/07/28/facebook-develops-ai-algorithm-that-learns-to-play-poker-on-the-fly/

相关文章
|
2月前
|
人工智能 Kubernetes 监控
初探:从0开始的AI-Agent开发踩坑实录
本文主要阐述作者通过亲身实践,探索利用AI Agent实现开源应用Helm Chart自动化生成的实践历程。
361 17
初探:从0开始的AI-Agent开发踩坑实录
|
7天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
本文介绍如何在Spring AI中自定义Advisor实现日志记录、结构化输出、对话记忆持久化及多模态开发,结合阿里云灵积模型Qwen-Plus,提升AI应用的可维护性与功能性。
286 125
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
|
10天前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
106 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
19天前
|
人工智能 JSON 测试技术
AI智能体开发实战:从提示工程转向上下文工程的完整指南
曾被热捧的提示工程正逐渐退潮,本文揭示其局限性,并提出“上下文工程”新范式:通过结构化提示、精准上下文管理、工具调用与统一状态,构建可扩展、可恢复、生产级的智能体工作流,推动AI系统迈向工程化与可控化。
189 9
AI智能体开发实战:从提示工程转向上下文工程的完整指南
|
8天前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
94 7
|
10天前
|
人工智能 前端开发 JavaScript
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
|
9天前
|
人工智能 Rust 并行计算
AI大模型开发语言排行
AI大模型开发涉及多种编程语言:Python为主流,用于算法研发;C++/CUDA优化性能;Go/Rust用于工程部署;Java适配企业系统;Julia等小众语言用于科研探索。
113 0
|
10天前
|
人工智能 自然语言处理 JavaScript
VTJ.PRO v0.13.29震撼发布!AI低代码引擎正式接入Qwen3-Coder-Plus,开发效率飙升!
VTJ.PRO v0.13.29 集成阿里云Qwen3-Coder-Plus大模型,实现自然语言生成Vue组件、源码双向同步与智能调试,大幅提升开发效率,推动低代码迈向智能化新时代。
74 0
|
2月前
|
人工智能 前端开发 Java
不用复杂开发!轻松实现博客 AI 摘要
本文介绍如何通过火山方舟与Deepseek-V3轻松实现博客AI摘要功能,涵盖智能总结、关键词提取、开发流程、流式输出优化及生产部署要点,助力提升阅读体验与用户留存。
96 0
|
2月前
|
存储 人工智能 运维

热门文章

最新文章