NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法

简介: NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法

网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。


近几年随着强化学习技术的发展,游戏 AI 技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏,它的玩法存在非完美信息 (地主和农民双方均不能看到对方的手牌) 以及策略合作(2 名农民玩家需要通过配合来击败手牌多 3 张的地主),被认为是非常具有挑战性的研究领域。除此以外,游戏本身的出牌组合数较多(27472 种),也极大地限制了如 CFR 等的搜索类算法的使用。


针对上述斗地主游戏的难点,网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。相关论文已被 NeurIPS 2022 接收,同时也已经公开了代码以及试玩地址,大家感兴趣可以去和 AI 对战。




针对斗地主游戏存在的非完美信息、策略合作和动作空间巨大的问题,PerfectDou 主要提出了如下几点贡献:


1. 提出了 PTIE(Perfect-Training-Imperfect-Execution)框架和 node reward 来解决非完美信息问题和策略合作问题

2. 牌类游戏特征的合理建模以及对可行动作的简化来减少模型探索空间,加速 AI 的训练过程


方案介绍


完美信息蒸馏(PTIE)


在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。


以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。


从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下:



在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。



PTIE 框架的整体结构如下图所示:



无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。


PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下:




如上所示,完美信息部分代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离,代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差,为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。

特征构建:


PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。


牌型特征为 12 * 15 的矩阵,如下图所示:



该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。


网络结构和动作空间设计


针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。


PerfectDou 策略网络结构如下图所示:



策略网络结构同样分为两部分:状态特征部分和动作特征部分。


  • 在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。
  • 在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。


实验结果


为了验证 PerfectDou 的强度,我们将 PerfectDou 和各个斗地主 AI 分别进行了 1 万局的对战来评估,包括之前的 SOTA 方法 DouZero。主要指标包括两种:WP(胜率)和ADP(场均得分)。其中 ADP 为主要指标,因为其更符合斗地主游戏规则,WP 为辅助指标。


(上表中加粗数字代表 A 对战 B 胜率超过 50% 或者 ADP 大于 0)


从实验结果中可以发现 PerfectDou 能够击败所有的 AI 程序,达到了新的 SOTA 水平。


除此以外PerfectDou还提供了各个核心模块的消融实验结果。

表中的 ImperfectDou、RewardlessDou 是分别去除了 PTIE 和 Node Reward 模块后训练的斗地主 AI,Vanilla PPO 是同时去除两个模块后训练的斗地主 AI,ImperfectDouZero 是尝试使用 PerfectDou 设计的特征和 DouZero 方法进行训练的斗地主 AI。通过上表我们可以发现 PerfectDou 的强度提升还是得益于 PTIE 和 Node Reward,并且两部分均发挥了不可获缺的作用。这也进一步验证了论文主要贡献点的有效性。

相关文章
|
29天前
|
人工智能 搜索推荐
写歌词的技巧和方法:塑造完美歌词结构的艺术,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,其结构艺术至关重要。开头需引人入胜,主体部分无论是叙事还是抒情,都应层次分明、情感丰富,结尾则需升华或留白,给人以深刻印象。《妙笔生词智能写歌词软件》提供多种AI辅助功能,助你轻松创作完美歌词,成为音乐创作的得力助手。
|
29天前
|
人工智能
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
|
3天前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
21 4
|
29天前
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
29天前
|
人工智能
掌握歌词布局技巧:写歌词的方法与要点,妙笔生词AI智能写歌词软件
歌词创作是一门独特的艺术,掌握歌词布局技巧至关重要。开头要引人入胜,主体部分要合理有节奏,结尾则需有力收尾。无论是叙事还是抒情,合理的布局都能让作品更加动人。《妙笔生词智能写歌词软件》提供了多种AI功能,帮助创作者轻松掌握布局技巧,开启高效创作之旅。
|
29天前
|
人工智能
精通歌词结构技巧:写歌词的方法与实践,妙笔生词AI智能写歌词软件
歌词创作是音乐的灵魂,掌握其结构技巧至关重要。开头需迅速吸引听众,主体部分需结构清晰、情感丰富,结尾则要余韵悠长。无论是叙事还是抒情,妙笔生词智能写歌词软件都能助你一臂之力,提供AI智能创作、优化及解析等多功能支持,助你轻松驾驭歌词创作。
|
29天前
|
人工智能
写歌词的技巧和方法:优化歌词结构的秘诀,妙笔生词AI智能写歌词软件
歌词是音乐的灵魂,优化其结构能让作品更加动人。掌握开头吸引人、主体结构清晰、情感递进自然及结尾余味悠长等技巧至关重要。同时,借助《妙笔生词智能写歌词软件》的多种AI功能,如智能写词、押韵优化等,可有效提升创作效率与质量,为你的歌词增添光彩。
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
40 1
下一篇
无影云桌面