NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法

简介: NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法

网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。


近几年随着强化学习技术的发展,游戏 AI 技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏,它的玩法存在非完美信息 (地主和农民双方均不能看到对方的手牌) 以及策略合作(2 名农民玩家需要通过配合来击败手牌多 3 张的地主),被认为是非常具有挑战性的研究领域。除此以外,游戏本身的出牌组合数较多(27472 种),也极大地限制了如 CFR 等的搜索类算法的使用。


针对上述斗地主游戏的难点,网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。相关论文已被 NeurIPS 2022 接收,同时也已经公开了代码以及试玩地址,大家感兴趣可以去和 AI 对战。




针对斗地主游戏存在的非完美信息、策略合作和动作空间巨大的问题,PerfectDou 主要提出了如下几点贡献:


1. 提出了 PTIE(Perfect-Training-Imperfect-Execution)框架和 node reward 来解决非完美信息问题和策略合作问题

2. 牌类游戏特征的合理建模以及对可行动作的简化来减少模型探索空间,加速 AI 的训练过程


方案介绍


完美信息蒸馏(PTIE)


在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。


以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。


从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下:



在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。



PTIE 框架的整体结构如下图所示:



无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。


PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下:




如上所示,完美信息部分代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离,代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差,为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。

特征构建:


PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。


牌型特征为 12 * 15 的矩阵,如下图所示:



该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。


网络结构和动作空间设计


针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。


PerfectDou 策略网络结构如下图所示:



策略网络结构同样分为两部分:状态特征部分和动作特征部分。


  • 在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。
  • 在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。


实验结果


为了验证 PerfectDou 的强度,我们将 PerfectDou 和各个斗地主 AI 分别进行了 1 万局的对战来评估,包括之前的 SOTA 方法 DouZero。主要指标包括两种:WP(胜率)和ADP(场均得分)。其中 ADP 为主要指标,因为其更符合斗地主游戏规则,WP 为辅助指标。


(上表中加粗数字代表 A 对战 B 胜率超过 50% 或者 ADP 大于 0)


从实验结果中可以发现 PerfectDou 能够击败所有的 AI 程序,达到了新的 SOTA 水平。


除此以外PerfectDou还提供了各个核心模块的消融实验结果。

表中的 ImperfectDou、RewardlessDou 是分别去除了 PTIE 和 Node Reward 模块后训练的斗地主 AI,Vanilla PPO 是同时去除两个模块后训练的斗地主 AI,ImperfectDouZero 是尝试使用 PerfectDou 设计的特征和 DouZero 方法进行训练的斗地主 AI。通过上表我们可以发现 PerfectDou 的强度提升还是得益于 PTIE 和 Node Reward,并且两部分均发挥了不可获缺的作用。这也进一步验证了论文主要贡献点的有效性。

相关文章
|
5月前
|
人工智能 自然语言处理 物联网
GEO优化方法有哪些?2025企业抢占AI流量必看指南
AI的不断重塑传统的信息入口之际,用户的搜索行为也从单一的百度、抖音的简单的查找答案的模式,逐渐转向了对DeepSeek、豆包、文心一言等一系列的AI对话平台的更加深入的探索和体验。DeepSeek的不断迭代优化同时,目前其月活跃的用户已破1.6亿,全网的AI用户规模也已超过6亿,这无疑为其下一阶段的迅猛发展提供了坚实的基础和广泛的市场空间。
|
6月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
881 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
5月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
266 1
|
6月前
|
数据采集 人工智能 JSON
学会“读网页”:生成式 AI 在足球赛事信息整理中的实战
本文介绍了一个足球比赛信息提取教程,利用生成式AI从ESPN、虎扑、腾讯体育等网站抓取比赛报道,抽取比分、关键事件和球员表现等信息。步骤包括采集、清洗、分块、调用LLM抽取、校验与落地,以及可视化。需要准备Python环境、安装依赖库,并遵循合规性。提供了示例代码,演示如何从网页抓取文本并调用LLM接口获得结构化输出。
706 3
|
6月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
415 4
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
1710 8
|
7月前
|
人工智能 安全 算法
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
2025 WAIC世界人工智能大会上,合合信息展台展示了多项AI鉴伪黑科技,涵盖图像、视频和文档篡改检测,能毫秒级识别AI伪造内容,广泛应用于金融、保险、社交媒体等多个领域,助力构建安全可信的AI生态。
282 0
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1294 53
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
642 31