【AlphaHoldem】端到端强化学习玩德州扑克

简介: 【AlphaHoldem】端到端强化学习玩德州扑克

所解决的问题?

Heads-up no-limit Texas hold’em (HUNL)864核跑无限注德州扑克达到人类水平。有点类似DouZero单机上达到人类水平。

背景

HUNL初始时,两名玩家会发两张盖牌。之后还有、翻牌、转牌、河牌、比牌。翻牌是三张,转牌一张,河牌一张。需要评估能够组成的5张牌中最大的。

动作空间有:过牌(check),跟注(call),加注(raise),弃牌(fold)。

五张牌的大小比较有:

DeepStackLibratus都是做完abstract之后再接CFR类算法,但是CFR这类偏遍历的方式算起来计算资源的开销太大了。但是AlphaHoldem只在8卡的GPU上64CPU核上训练了三天。

所采用的方法?

作者设计了一个伪孪生网络的结构(pseudo-Siamese),直接从输入学习输出的动作分布。除此之外,作者在状态表征、训练的loss、模型策略方面也都做了改进。

整体的网络结构如上图所示:输入是动作信息和卡牌信息的状态表征。送入到顶部和底部的孪生网络结构中。作者期望两个卷积网络能够学习不同的信息表征。由此还提出了一种新的loss函数Trinal-Clip Lossself-play的时候也是选取的历史最佳的k个。整体设计就是这样,具体细节可以归功于三个方面:状态表征、Loss设计、Self-Play的模型选择。

高效的状态表征

card的信息就是六个通道,2张底牌、3张公共牌、1张转牌、1张河牌。每个通道是4x13的矩阵,1表示有这张牌(这里是考虑了花色的)。

对于动作信息,每个通道是4 × n b 的矩阵,4分别表示玩家1的动作、玩家2的动作、两家动作之和、合法动作。总共最多会有4次下注,每次下注最多会有6个下注动作。所以总共是24 × 4 × n b种情况。


Trinal-Clip损失函数

image.png


这三种loss的效果对比如下:

有效的模型选择和生成

简单的自博弈算法容易陷入循环克制的问题中,不容易收敛。AlphaStar的群体博弈(PBT),神经虚拟自博弈(NFSP)需要的资源开销比CFR的开销还要大。

AlphaHoldem采用了一种新型的Best-K自博弈方法。该方法通过在训练过程中测试历史模型的性能,挑选出K个最好的模型与现在最新的模型对打,不断通过强化学习提升自身性能。

总共8.6milion的参数,1.8milion的卷积参数,6.8milion的全连接参数。

取得的效果?

所出版信息?作者信息?

一作是中科院博士生赵恩民,导师兴军亮。论文是AAAI的卓越论文。

参考链接

相关文章
|
SQL 监控 关系型数据库
实时计算 Flink版操作报错合集之在设置监控PostgreSQL数据库时,将wal_level设置为logical,出现一些表更新和删除操作报错,怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
安全 数据安全/隐私保护
【GitHub】2FA认证(双重身份验证)
【GitHub】2FA认证(双重身份验证)
1848 6
|
存储 人工智能 安全
密钥密码学(一)(3)
密钥密码学(一)
469 1
|
搜索推荐 算法
基于用户的协同过滤算法实现商品推荐
基于用户的协同过滤算法实现商品推荐
321 2
|
自然语言处理 测试技术 网络安全
ElasticSearch7最新实战文档-附带logstash同步方案
ElasticSearch7最新实战文档-附带logstash同步方案
299 0
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
在上面的代码中,我们使用pandas库创建DataFrame存储商品数据,并计算平均价格和平均销量。最后,我们将计算结果打印出来。此外,我们还可以使用pandas库提供的其他函数和方法来进行更复杂的数据分析和处理。 需要注意的是,爬取拼多多商品数据需要遵守拼多多的使用协议和规定,避免过度请求和滥用数据。
|
前端开发 小程序 Java
|
自然语言处理
有道词典使用离线翻译
有道词典使用离线翻译
1069 0
|
机器学习/深度学习 传感器 安全
2023 年高教社杯B题多波束测线问题思路及参考代码(持续更新)
2023 年高教社杯B题多波束测线问题思路及参考代码(持续更新)
|
机器学习/深度学习 人工智能 算法
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。
558 0
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
下一篇
oss云网关配置