对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平

简介: 对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。

在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。

西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。

其一,Stratego 的博弈树具有 10^535个可能状态,这要多于已经得到充分研究的不完美信息游戏无限制德州扑克(10^164个可能状态)和围棋游戏(10^360个可能状态)。

其二,在Stratego的给定环境中行动需要在游戏开始时为每个玩家推理超过10^66个可能的部署,而扑克只有10^3对可能的牌。围棋和国际象棋等完美信息游戏没有私有部署阶段,因此避免了Stratego中这一挑战带来的复杂性。

目前,我们不可能使用基于模型的SOTA完美信息规划技术,也无法使用将游戏分解为独立情况的不完美信息搜索技术。



由于这些原因,Stratego为研究大规模策略交互提供了一个挑战性基准。与大多数棋盘游戏相似,Stratego测试我们循序地做出相对较慢、深思熟虑和合乎逻辑决策的能力。又由于该游戏的结构非常复杂,AI研究社区几乎没能取得什么进展,人工智能体只能达到人类业余玩家的水平。因此,在从零开始且没有人类演示数据的情况下,开发智能体学习端到端策略以在Stratego的不完美信息下做出最佳决策,仍然是AI研究面临的重大挑战之一。

近日,在 DeepMind 的一篇最新论文中,研究者提出了 DeepNash,它是一种无需人类演示、以无模型(model-free)方式学习Stratego自我博弈的智能体。DeepNask击败了以往的SOTA AI智能体,并在该游戏最复杂的变体Stratego Classic中实现了专家级人类玩家的水平。

论文地址:https://arxiv.org/pdf/2206.15378.pdf
DeepNash的核心是一种条理化、无模型的强化学习算法,研究者称为Regularized Nash Dynamics(R-NaD)。DeepNash将R-NaD与一个深度神经网络架构相结合,并收敛到纳什均衡,这意味着它学会了在激励竞争下比赛,并对试图利用它的竞争对手具有稳健性。

下图 1 b 为DeepNash方法的高级概览。研究者在Gravon游戏平台上将它的表现与各种SOTA Stratego机器人和人类玩家进行了系统比较。结果显示,DeepNash以超过 97% 的胜率击败了当前所有 SOTA机器人,并与人类玩家进行了激烈竞争,在2022年度和各个时期的排行榜上都位列前3名,胜率达到了84%。



研究者表示,在学习算法中不部署任何搜索方法的情况下,AI算法第一次能够在复杂棋盘游戏中达到人类专家水平,也是AI首次在Stratego游戏中实现人类专家水平。

方法概述

DeepNash 采用端到端的学习策略运行Stratego,并在游戏开始时将棋子战术性地放在棋盘上(见图 1a),在game-play阶段,研究者使用集成深度 RL 和博弈论方法。智能体旨在通过自我博弈来学习一个近似的纳什均衡。

该研究采用无需搜索的正交路径,并提出了一种新方法,将自我博弈中的无模型(model-free)强化学习与博弈论算法思想——正则化纳什动力学 (RNaD) 相结合。

无模型部分意味着该研究没有建立一个明确的对手模型来跟踪对手可能出现的状态,博弈论部分基于这样的思路,即在强化学习方法的基础上,他们引导智能体学习行为朝着纳什均衡的方向发展。这种组合方法的主要优点是不需要从公共状态中显式地模拟私有状态。另外一个复杂的挑战是,将这种无模型的强化学习方法与R-NaD相结合,使西洋陆军棋中的自我博弈与人类专家玩家相竞争,这是迄今为止尚未实现的。这种组合的DeepNash方法如上图1b所示。

正则化纳什动力学算法

DeepNash 中使用的 R-NaD 学习算法是基于正则化思想以达到收敛的目的,R-NaD 依赖于三个关键步骤,如下图 2b所示:


DeepNash 由三个组件组成:(1) 核心训练组件 R-NaD;(2) 微调学习策略以减少模型采取极不可能动作的残差概率,以及 (3) 测试时进行后处理以过滤掉低概率动作并纠错。

DeepNash 的网络由以下组件构成:一个带有残差块和跳跃连接的 U-Net 主干,以及四个头。第一个 DeepNash 头将价值函数输出为标量,而其余三个头通过在部署和游戏期间输出其动作的概率分布来编码智能体策略。这个观测张量的结构如图3所示:


实验结果


DeepNash 还与几个现有的Stratego计算机程序进行了评估:Probe 在 Computer Stratego 世界锦标赛中,其中有三年夺冠(2007 年、2008 年、2010 年);Master of the Flag在 2009 年赢得了该冠军;Demon of Ignorance 是 Stratego 的开源实现;Asmodeus、Celsius、Celsius1.1、PeternLewis 和 Vixen 是 2012 年在澳大利亚大学编程竞赛中提交的程序,此次比赛PeternLewis 获胜。

如表1所示,DeepNash在对抗所有这些智能体时赢得了绝大多数的游戏,尽管DeepNash没有接受过对抗训练,只是使用自我博弈。


下图 4a举例说明DeepNash中的一些经常重复的部署方式;图 4b 显示了 DeepNash(蓝方)在棋子中落后(输掉了 7 和 8)但在信息方面领先的情况,因为红方的对手有 10、9、8 和两个7。图 4c 中的第二个示例显示了 DeepNash 有机会用其 9 捕获对手的 6,但这一举措并未被考虑,可能是因为DeepNash认为保护 9 的身份被认为比物质收益更重要。


在下图5a中,研究者展示了积极的唬骗(positive bluffing),玩家假装棋子的价值高于实际价值。DeepNash用未知棋子Scout (2) 追逐对手的8,并假装它是10。对手认为这个棋子可能是10,将其引导至Spy旁边(可以捕获10)。但是,为了夺取这枚棋子,对手的Spy输给了DeepNash的Scout。

第二类唬骗为消极唬骗(negative bluffing),如下图5b所示。它与积极唬骗相反,玩家假装棋子的价值低于实际价值。

下图5c展示了一种更复杂的bluff,其中DeepNash将其未公开的Scout (2)接近对手的10,这可以被解释为Spy。这种策略实际上允许蓝方在几步之后用7捕获红方的5,因此获得material,阻止5捕获Scout (2),并揭示它实际上并不是Spy。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
62 6
|
12天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
94 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
23天前
|
人工智能 自然语言处理 算法
【AI问爱答-双十一返场周直播】AI产品专家直播解读重点AI应用场景怎么用?
阿里云【AI问爱答】栏目强势回归,11月25日至28日每晚19:00,连续四天直播,涵盖AI营销、企业办公、社交娱乐及大模型推理调优四大主题,助您深入了解AI应用,解决实际问题。欢迎预约观看!
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术性文章移动应用开发之旅:从新手到专家的蜕变之路
【8月更文挑战第30天】本文将介绍人工智能的基本原理和应用,包括机器学习、深度学习和自然语言处理等。我们将通过代码示例来展示如何使用Python和TensorFlow库实现一个简单的神经网络模型。
|
4月前
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、
|
4月前
|
人工智能 数据管理 Serverless
手把手教你如何10分钟获得一位24小时AI专家助手
【8月更文挑战第1天】手把手教你如何10分钟获得一位24小时AI专家助手
132 2
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
72 0
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
1天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。