ICLR 2022|让绝艺上桌打麻将,腾讯AI Lab全新策略优化算法战胜人类冠军

简介: ICLR 2022|让绝艺上桌打麻将,腾讯AI Lab全新策略优化算法战胜人类冠军

「绝艺」又有了新成果:在1v1麻将(二人雀神)测试中战胜职业冠军选手。


对于 AI 领域的研究者和从业者来说,腾讯 AI Lab 研发的围棋 AI「绝艺」的名字并不陌生。自 2016 年面世后,它已四次夺得世界顶级赛事冠军,包括 UEC 杯、AI 龙星战、腾讯世界人工智能围棋大赛、世界智能围棋公开赛等,并自 2018 年起无偿担任中国国家围棋队训练专用 AI。

在围棋以外,腾讯 AI Lab 绝艺团队持续深入研究大规模二人零和博弈问题,从完美信息游戏(围棋)逐步拓展至非完美信息游戏(例如麻将)。

4 月 25 日,腾讯 AI Lab 宣布棋牌类 AI「绝艺」取得新突破,在 1v1 麻将(二人雀神)测试中战胜职业冠军选手。团队在大规模强化学习算法框架下提出了一个新的策略优化算法 Actor-Critic Hedge (ACH),部分解决了大规模深度强化学习自博弈收敛不到纳什均衡最优解的问题。该算法及对应二人麻将 benchmark 已通过论文开源,并被机器学习顶会 ICLR 2022 收录。


论文链接:https://openreview.net/pdf?id=DTXZqTNV5nW

非完美信息博弈广泛存在于日常生活的方方面面,如智慧交通、网络安全、金融分析等。腾讯 AI Lab 以麻将 AI 为切入点研究非完美信息博弈,其目标不仅限于打造世界级的国粹麻将 AI,更多的在于探索非完美信息博弈在游戏领域,以及其他广阔的社会生活领域的实际应用价值。

研究背景

棋牌游戏一直以来都是 AI 技术的优质试验场,例如,在围棋上就诞生了 AlphaGo、绝艺等标杆性的 AI。相比于围棋这类「完美信息」游戏,德州扑克,桥牌,麻将这类 “非完美信息” 游戏存在着大量的隐藏信息,例如,玩家无法直接知道对手的手牌,这给游戏带来了更高的不确定性,对 AI 的博弈能力提出更高要求。


具体而言,在完美信息游戏中,始终存在确定性的最优解,即任何状态下都存在一个固定的最优动作。然而在非完美信息游戏中,最优策略往往是随机化的。例如,在二人石头 - 剪刀 - 布游戏中,最优策略(纳什均衡策略)不在是某一个固定的动作,而是关于每个动作的一个概率分布:等概率出石头,剪刀,和布。

二人石头 - 剪刀 - 布

近年来,反事实遗憾值最小化算法(CFR)在德州扑克游戏 AI 上取得了一些列突破性进展,例如 DeepStack(2017 Science 杂志),Libratus(冷扑大师,2017 Science 杂志),和 Pluribus(2019 Science 杂志)。CFR 具有收敛到纳什均衡解的理论保证。然而,由于 CFR 是一种基于表格的算法,并且需要对游戏树做全遍历,CFR 在德州扑克游戏上的应用需要大量的领域知识来对游戏树做剪枝。虽然后续有一些工作尝试将深度学习和 CFR 做结合,但目前还没有看到 CFR 在其他大规模非完美信息游戏上的成功应用。

另一方面,由于深度强化学习高效的可扩展性,深度强化学习结合自博弈广泛用于大规模非完美信息游戏中求解高强度 AI,例如星际 2,Dota2,和王者荣耀。

然而,基于深度强化学习的大部分 AI 的鲁棒性有待提高,集中表现为 AI 容易被针对,最坏情况下的性能没有保证。这些问题的根本原因在于深度强化学习结合自博弈缺乏收敛到纳什均衡解的理论保证。例如下图所示,在一个简单的二人石头 - 剪刀 - 布游戏中,自博弈 Proximal Policy Optimization 无法收敛到(红线为收敛过程)纳什均衡解(蓝点)。  


方法简介

腾讯 AI Lab 的研究结合经典反事实遗憾值最小化算法 CFR 的思想,在大规模强化学习算法框架下提出了一个新的策略优化算法 Actor-Critic Hedge (ACH)。该算法一方面具备深度强化学习方法的可扩展性,一方面在某些条件下具备收敛到纳什均衡解的理论保证。

具体来说,我们修改传统深度强化学习策略网络的损失函数:从最大化累计奖励到拟合累计采样 advantage:


累计采样 advantage 与 CFR 中的累计遗憾值存在一定的等价关系。另外,可以证明,相比过去基于采样 regret 的方法,采样 advantage 有更小的 variance:


更小的 variance 在基于神经网络的方法中意味着更稳定的效果。


ACH 具体算法流程如下:


在该工作中,我们引入了一类新的 CFR 算法:Weighted CFR。Weighted CFR 有如下定义:


算法 ACH 可以看作是一类基于神经网络的 Weighted CFR 算法的一个高效实现。我们证明了 Weighted CFR 的算法收敛性,进而近似证明了 ACH 的算法收敛性:


另外,针对 1v1 麻将的具体神经网络设计如下:


实验结果

在对比主流方法的基础上,该算法的优越性在 1v1 麻将(战胜职业冠军)和 1v1 德州扑克上均得到了验证。

二人麻将:「二人雀神」

1v1 麻将(二人雀神)测试中,「绝艺」与世界冠军职业选手对战 1000 回合,平均赢番 0.82(标准差 0.96,单边 t 检验的 p value 为 0.19)

1v1 麻将环境,主流算法性能对比

1v1 简单德扑环境,各种经典反事实遗憾值最小化算法扩展的对比

相关文章
|
3天前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
4天前
|
机器学习/深度学习 人工智能 监控
智慧交通AI算法解决方案
智慧交通AI算法方案针对交通拥堵、违法取证难等问题,通过AI技术实现交通管理的智能化。平台层整合多种AI能力,提供实时监控、违法识别等功能;展现层与应用层则通过一张图、路口态势研判等工具,提升交通管理效率。方案优势包括先进的算法、系统集成性和数据融合性,应用场景涵盖车辆检测、道路环境检测和道路行人检测等。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
3天前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
智慧化工厂AI算法方案
|
11天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
21天前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。
|
20天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
22天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
9天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。