所解决的问题?
Heads-up no-limit Texas hold’em (HUNL)
:8
卡64
核跑无限注德州扑克达到人类水平。有点类似DouZero
单机上达到人类水平。
背景
HUNL
初始时,两名玩家会发两张盖牌。之后还有、翻牌、转牌、河牌、比牌。翻牌是三张,转牌一张,河牌一张。需要评估能够组成的5
张牌中最大的。
动作空间有:过牌(check
),跟注(call
),加注(raise
),弃牌(fold
)。
五张牌的大小比较有:
DeepStack
、Libratus
都是做完abstract
之后再接CFR
类算法,但是CFR
这类偏遍历的方式算起来计算资源的开销太大了。但是AlphaHoldem
只在8
卡的GPU上64
个CPU
核上训练了三天。
所采用的方法?
作者设计了一个伪孪生网络的结构(pseudo-Siamese
),直接从输入学习输出的动作分布。除此之外,作者在状态表征、训练的loss
、模型策略方面也都做了改进。
整体的网络结构如上图所示:输入是动作信息和卡牌信息的状态表征。送入到顶部和底部的孪生网络结构中。作者期望两个卷积网络能够学习不同的信息表征。由此还提出了一种新的loss
函数Trinal-Clip Loss
。self-play
的时候也是选取的历史最佳的k
个。整体设计就是这样,具体细节可以归功于三个方面:状态表征、Loss
设计、Self-Play
的模型选择。
高效的状态表征
card
的信息就是六个通道,2
张底牌、3
张公共牌、1
张转牌、1
张河牌。每个通道是4x13
的矩阵,1
表示有这张牌(这里是考虑了花色的)。
对于动作信息,每个通道是4 × n b 的矩阵,4
分别表示玩家1
的动作、玩家2
的动作、两家动作之和、合法动作。总共最多会有4
次下注,每次下注最多会有6
个下注动作。所以总共是24 × 4 × n b种情况。
Trinal-Clip损失函数
这三种loss
的效果对比如下:
有效的模型选择和生成
简单的自博弈算法容易陷入循环克制的问题中,不容易收敛。AlphaStar
的群体博弈(PBT
),神经虚拟自博弈(NFSP
)需要的资源开销比CFR
的开销还要大。
AlphaHoldem
采用了一种新型的Best-K
自博弈方法。该方法通过在训练过程中测试历史模型的性能,挑选出K
个最好的模型与现在最新的模型对打,不断通过强化学习提升自身性能。
总共8.6milion的参数,1.8milion的卷积参数,6.8milion的全连接参数。
取得的效果?
所出版信息?作者信息?
一作是中科院博士生赵恩民,导师兴军亮。论文是AAAI的卓越论文。