【AlphaHoldem】端到端强化学习玩德州扑克

简介: 【AlphaHoldem】端到端强化学习玩德州扑克

所解决的问题?

Heads-up no-limit Texas hold’em (HUNL)864核跑无限注德州扑克达到人类水平。有点类似DouZero单机上达到人类水平。

背景

HUNL初始时,两名玩家会发两张盖牌。之后还有、翻牌、转牌、河牌、比牌。翻牌是三张,转牌一张,河牌一张。需要评估能够组成的5张牌中最大的。

动作空间有:过牌(check),跟注(call),加注(raise),弃牌(fold)。

五张牌的大小比较有:

DeepStackLibratus都是做完abstract之后再接CFR类算法,但是CFR这类偏遍历的方式算起来计算资源的开销太大了。但是AlphaHoldem只在8卡的GPU上64CPU核上训练了三天。

所采用的方法?

作者设计了一个伪孪生网络的结构(pseudo-Siamese),直接从输入学习输出的动作分布。除此之外,作者在状态表征、训练的loss、模型策略方面也都做了改进。

整体的网络结构如上图所示:输入是动作信息和卡牌信息的状态表征。送入到顶部和底部的孪生网络结构中。作者期望两个卷积网络能够学习不同的信息表征。由此还提出了一种新的loss函数Trinal-Clip Lossself-play的时候也是选取的历史最佳的k个。整体设计就是这样,具体细节可以归功于三个方面:状态表征、Loss设计、Self-Play的模型选择。

高效的状态表征

card的信息就是六个通道,2张底牌、3张公共牌、1张转牌、1张河牌。每个通道是4x13的矩阵,1表示有这张牌(这里是考虑了花色的)。

对于动作信息,每个通道是4 × n b 的矩阵,4分别表示玩家1的动作、玩家2的动作、两家动作之和、合法动作。总共最多会有4次下注,每次下注最多会有6个下注动作。所以总共是24 × 4 × n b种情况。


Trinal-Clip损失函数

image.png


这三种loss的效果对比如下:

有效的模型选择和生成

简单的自博弈算法容易陷入循环克制的问题中,不容易收敛。AlphaStar的群体博弈(PBT),神经虚拟自博弈(NFSP)需要的资源开销比CFR的开销还要大。

AlphaHoldem采用了一种新型的Best-K自博弈方法。该方法通过在训练过程中测试历史模型的性能,挑选出K个最好的模型与现在最新的模型对打,不断通过强化学习提升自身性能。

总共8.6milion的参数,1.8milion的卷积参数,6.8milion的全连接参数。

取得的效果?

所出版信息?作者信息?

一作是中科院博士生赵恩民,导师兴军亮。论文是AAAI的卓越论文。

参考链接

相关文章
|
机器学习/深度学习 人工智能 API
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
221 0
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
194 0
|
机器学习/深度学习 人工智能 安全
人类进化新时代,DARPA 的「靶向神经可塑性训练」为何如此重要?
在4 月 8 号机器之心的文章 (前沿 | 疯狂科学家!DARPA 颅内芯片研究项目即将启动)文章中,机器之心PSI 小伙伴吴航首先为我们介绍了 DARPA 的历史和技术。在本篇(后篇)文章中,他详细介绍了 DARPA 正式发布的 TNT 项目。
1152 0
人类进化新时代,DARPA 的「靶向神经可塑性训练」为何如此重要?
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
187 0
|
机器学习/深度学习 人工智能 编解码
DeepFake换头术升级:浙大新模型,GAN出一头秀发
DeepFake换头术升级:浙大新模型,GAN出一头秀发
266 0
|
机器学习/深度学习 人工智能 自然语言处理
从ChatGPT到AGI还有多远?
体验过市面上这类产品的估计都有中”智障“的感觉,除了特殊的几类问题,几乎什么都不会,而且对Query的泛化也不是很好,同一个问题换个问法就不会了,给人的感觉就是”傻“。
187 0
|
机器学习/深度学习 人工智能 算法
【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用
斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游戏渊源以及强化学习在现实生活中的应用:机器人、World of Bits、金融、广告业、环境和能源等等。
5585 0
|
机器学习/深度学习 人工智能 自动驾驶
ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享
ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享
ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享
|
机器学习/深度学习 人工智能 算法
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用
作者 | Kurt Marko译者 | 核子可乐 AI 前线导读: 人工智能只是优秀的曲线拟合?近两年,关于这一观点的讨论从未停止,图灵奖获得者、贝叶斯网络之父 Judea Pearl 也参与其中,他一直自嘲自己是 AI 社区的反叛者,认为由于人类对智能的真正含义不完全理解而阻碍了人工智能的发展,他曾经在多个场合表达过这样的观点:人工智能领域的技术水平只不过是上一代机器已有功能的增强版——在大量数据中发现隐藏的规律性,所有令人印象深刻的深度学习成果都只是曲线拟合。
AI搞了半天只是曲线拟合?贝叶斯网络之父力荐因果关系应用
|
机器学习/深度学习 人工智能 定位技术
【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。
1871 0
下一篇
无影云桌面