【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!

简介: 继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。

【新智元导读】继OpenAI之后,DeepMind也在多智能体强化学习方面秀肌肉:首次在第一人称射击游戏的多人模式中完胜人类,而且没有使用大量训练局数,轻松超过了人类水平。

就在OpenAI宣布在5v5 DOTA 2中战胜人类玩家后没多久,今天,DeepMind也分享了他们在多智能体学习(multi-agent learning)方面的进展。

CEO Hassabis在Twitter上分享:“我们最新的工作展示了智能体在复杂的第一人称多人游戏中达到人类水平,还能与人类玩家合作!”


image

Hassbis说的这个游戏,就是《雷神之锤III竞技场》,这也是很多现代第一人称射击游戏的鼻祖,玩家或独立或组队在地图中厮杀,死亡后数秒在地图某处重生。当某一方达到胜利条件(在DeepMind的实验里就是抢夺更多的旗帜),或者游戏持续一定时间后即宣告回合结束。胜利条件取决于选择的游戏模式。

虽然Hassbis在Twitter里说他们的AI“达到了人类水平”,实际上,从实验结果看,他们的AI已经超越了人类:在与由40个人类玩家组成的队伍对战时,纯AI的队伍完胜纯人类的队伍(平均多抢到16面旗),并且有95%的几率战胜AI与人混合组成的队伍。

这个AI名叫“为了赢”(For the Win,FTW),只玩了将近45万场游戏,理解了如何有效地与人和其他的机器合作与竞争。

研究人员对AI的唯一限定是,在5分钟时间里尽可能取得多的旗帜。对战的游戏地图是随机生成的,每场都会变,室内与室外的地形也不相同。组队的时候,AI可能与人组队,也可能与其他AI组队。对战的模式分为慢速和高速两种。

在训练过程中,AI发展出了自己的奖励机制,学会了基地防守、尾随队友,或者守在敌人营地外偷袭等策略。

DeepMind在他们今天发表的博客文章中写道,从多智能体的角度说,玩《雷神之锤III》这种多人视频游戏,需要与队友合作,与敌方竞争,还要对遭遇到的任何对战风格/策略保持鲁棒性。

分析发现,游戏中,AI在“tagging”(碰触对方,将其送回地图上的初始地点)上比人类更加高效,80%的情况下能够成功(人类为48%)。

而且有趣的是,对参与对战的人类玩家进行调查后发现,大家普遍认为AI是更好的team player,更善于合作。

第一人称射击游戏多人模式重大突破

启元世界首席算法官、前Netflix资深算法专家王湘君告诉新智元:

之前第一人称射击(FPS)游戏的研究更多是单人模式,这次DeepMind在FPS多人模式做出了重大突破,在没有使用大量训练局数的情况下就超过了人类水平。和之前OpenAI Five相比,DeepMind的Capture the Flag (CTF) 模型直接从pixel学习,没有作feature engineering和为每个agent单独训练模型,得益于以下创新:

去年DeepMind Max Jaderberg 提出的Population-based training 的应用极大提高了训练效率,并且提供了多样化的exploration,帮助模型在不同地形队友环境中的适应性,实验结果显示比self-play的结果更好更高效。
For The Win agent 的分层reward机制来解决credit assignment问题。
用fast and slow RNN 和内存机制达到类似Hierarchical RL的作用。

不过,FPS在策略学习上面的难度还是比Dota,星际这种RTS游戏小很多,CTF模型在长期策略游戏上效果还有待观察。

在和人类对战模式之外,CTF模型同时在人机协作上有很好的效果。值得一提的是,启元世界在今年4月份北大ACM总决赛期间发布的基于星际争霸2的人机协作挑战赛,其智能体也率先具备了与人和AI组队协作的能力。人机协作在未来的人工智能研究领域将成为非常重要的一环。

掌握策略,理解战术和团队合作

在多人视频游戏中掌握策略、战术理解和团队合作是人工智能研究的关键挑战。现在,由于强化学习取得的新进展,我们的智能体已经在《雷神之锤III竞技场》(Quake III Arena)游戏中达到了人类级别的表现,这是一个经典的3D第一人称多人游戏,也是一个复杂的多智能体环境。这些智能体展现出同时与人工智能体和人类玩家合作的能力。

我们居住的星球上有数十亿人,每个人都有自己的个人目标和行动,但我们仍然能够通过团队、组织和社会团结起来,展现出显著的集体智慧。这是我们称之为多智能体学习(multi-agent learning)的设置:许多个体的智能体必须能够独立行动,同时还要学会与其他智能体交互和合作。这是一个极其困难的问题——因为有了共适应智能体,世界在不断地变化。

为了研究这个问题,我们选择了3D第一人称多人视频游戏。这些游戏是最流行的电子游戏类型,由于它们身临其境的游戏设计,以及它们在策略、战术、手眼协调和团队合作方面的挑战,吸引了数以百万计的玩家。我们的智能体面临的挑战是直接从原始像素中学习以产生操作。这种复杂性使得第一人称多人游戏成为人工智能社区一个非常活跃而且得到许多成果的研究领域。

我们的这项工作关注的游戏是《雷神之锤III竞技场》(我们对其进行了一些美术上的修改,但所有游戏机制保持不变)。《雷神之锤III竞技场》是为许多现代第一人称视频游戏奠定了基础,并吸引了长期以来竞争激烈的电子竞技场面。我们训练智能体作为个体学习和行动,但必须能够与其他智能体或人类组成团队作战。

CTF(Capture The Flag)的游戏规则很简单,但是动态很复杂。在Quake 3里分成蓝红两队在给定的地图中竞赛。竞赛的目的是将对方的旗子带回来,并且碰触未被移动过的我方旗子,我队就得一分,称作一个 capture。为了获得战术上的优势,他们可以会碰触地方的队员(tagging),把他们送回自己的地盘。在五分钟内capture到最多旗子的队伍获胜。

从多智能体的角度看,CTF要求队员既要成功地与队友合作,又要与对方敌手竞争,同时在可能遇到的任何比赛风格中保持稳健性。

FTW智能体:等级分远超基线方法和人类玩家

为了使事情更有趣,我们设计了CTF的一种变体,令地图的布局在每一场竞赛中发生改变。这样,我们的智能体被迫要采用一般性策略,而不是记住地图的布局。此外,为了让游戏更加公平,智能体要以类似于人类的方式体验CTF的世界:它们观察一系列的像素图像,并通过模拟游戏控制器发出动作。

智能体必须从头开始学习如何在不可见(unseen)的环境中观察、行动、合作和竞争,所有这些都来自每场比赛的一个强化信号:他们的团队是否获胜。这是一个具有挑战性的学习问题,它的解决方法基于强化学习的三个一般思路:

我们不是训练一个智能体,而是训练一群智能体,它们通过组队玩游戏来学习,提供了多样化的队友和敌手。
群体中的每个智能体都学习自己的内部奖励信号,这些信号使得智能体能够产生自己的内部目标,例如夺取一面旗子。双重优化过程可以直接为了获胜优化智能体的内部奖励,并使用内部奖励的强化学习来学习智能体的策略。
智能体在两个时间尺度上运行,快速和慢速,这提高了它们使用内存和产生一致动作序列的能力。

image

图: For The Win (FTW)智能体架构的示意图。该智能体将快速和慢速两个时间尺度的循环神经网络(RNN)相结合,包括一个共享记忆模块,并学习从游戏点到内部奖励的转换。

由此产生的智能体,我们称之为For The Win(FTW)智能体,它学会了以非常高的标准玩CTF。最重要的是,学会的智能体策略对地图的大小、队友的数量以及团队中的其他参与者都具有稳健性。

我们举办了一场比赛,包括40名人类玩家。在比赛中,人类和智能体都是随机配对的——可以作为敌手或者作为队友。

FTW智能体学会的比强大的基线方法更强,并超过人类玩家的胜率。事实上,在一项对参与者的调查中,它们被认为比人类参与者更具有合作精神。

image

训练期间我们的智能体的表现。我们新的FTW智能体相比人类玩家和Self-play + RS和Self-play的基线方法获得了更高的Elo等级分——获胜的概率也更高。

除了性能评估之外,理解这些智能体的行为和内部表示的复杂性是很重要的。

为了理解智能体如何表示游戏状态,我们研究了在平面上绘制的智能体的神经网络的激活模式。下图中的点表示游戏过程中的情况,近处的点表示类似的激活模式。这些点是根据高级CTF游戏状态进行着色的,在这些状态中智能体要问自己:智能体在哪个房间?旗子的状态是怎样的?可以看到哪些队友和敌手?我们观察到相同颜色的集群,表明智能体以类似的方式表示类似的高级游戏状态。

image

智能体如何表示游戏世界。不同的情形在概念上对应于同一游戏情境,并由智能体相似地表示出来。训练好的智能体甚至展示了一些人工神经元,这些神经元直接为特定情况编码。

智能体从未被告知游戏的规则,但是它可以学习基本的游戏概念,并能有效地建立CTF直觉。事实上,我们可以找到一些特定的神经元,它们可以直接编码一些最重要的游戏状态,比如当智能体的旗子被夺走时激活的神经元,或者当它的队友夺到对方的旗子时激活的神经元。我们在论文中进一步分析了智能体对记忆和视觉注意力的使用。

除了这种丰富的表示,智能体还会如何行动呢?首先,我们注意到这些智能体的反应时间非常快,tagging也非常准确,这可以解释为它们的性能。但是,通过人为地降低tagging的准确度和反应时间,我们发现这只是它们成功的因素之一。

image

训练后人为地降低了智能体的tagging精度和tagging反应时间。即使在具有于人类相当的准确度和反应时间下,智能体的性能仍高于人类。

通过无监督学习,我们建立了智能体和人类的原型行为( prototypical behaviours),发现智能体实际上学习了类似人类的行为,例如跟随队友并在对手的基地扎营。

这些行为出现在训练过程中,通过强化学习和群体层面的进化,一些行为——比如跟随队友——随着智能体学会以更加互补的方式合作而减少。

总结和展望

最近,研究界在复杂游戏领域做出了非常令人印象深刻的工作,例如星际争霸2和Dota 2。我们的这篇论文聚焦于《雷神之锤III竞技场》的夺旗模式,它的研究贡献是具有普遍性的。我们很希望看到其他研究人员在不同的复杂环境中重建我们的技术。未来,我们还希望进一步改进目前的强化学习和群体训练方法。总的来说,我们认为这项工作强调了多智能体训练对促进人工智能发展的潜力:利用多智能体训练的自然设置,并促进强大的、甚至能与人类合作的智能体的开发。

image

更多细节请阅读论文:
https://deepmind.com/documents/224/capture_the_flag.pdf
完整视频:
https://youtu.be/dltN4MxV1RI

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:[【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游戏完胜人类!
](https://mp.weixin.qq.com/s/vnD-yXQqvZZ9fvm2JEh0XA)

相关文章
|
11天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
12天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
127 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
机器学习/深度学习 人工智能 开发者
谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真
【9月更文挑战第22天】谷歌近日推出的AI游戏引擎GameNGen,作为全球首款神经模型驱动的游戏引擎,引发了广泛关注。该引擎使用户无需编写代码即可生成游戏,并实现了与复杂环境的实时交互,显著提升了模拟质量。在单TPU上,GameNGen能以超20帧/秒的速度流畅模拟经典游戏《DOOM》。这项技术不仅简化了游戏开发流程,降低了成本,还为游戏设计带来了更多可能性。然而,它也可能改变游戏产业的商业模式和创意多样性。无论如何,GameNGen标志着游戏开发领域的一次重大革新。
54 2
|
3月前
|
Java Spring Apache
Spring Boot邂逅Apache Wicket:一次意想不到的完美邂逅,竟让Web开发变得如此简单?
【8月更文挑战第31天】Apache Wicket与Spring Boot的集成提供了近乎无缝的开发体验。Wicket以其简洁的API和强大的组件化设计著称,而Spring Boot则以开箱即用的便捷性赢得开发者青睐。本文将指导你如何在Spring Boot项目中引入Wicket,通过简单的步骤完成集成配置。首先,创建一个新的Spring Boot项目并在`pom.xml`中添加Wicket相关依赖。
101 0
|
3月前
|
机器学习/深度学习 人工智能 算法
深入探索TensorFlow在强化学习中的应用:从理论到实践构建智能游戏AI代理
【8月更文挑战第31天】强化学习作为人工智能的一个重要分支,通过智能体与环境的互动,在不断试错中学习达成目标。本文介绍如何利用TensorFlow构建高效的强化学习模型,并应用于游戏AI。智能体通过执行动作获得奖励或惩罚,旨在最大化长期累积奖励。TensorFlow提供的强大工具简化了复杂模型的搭建与训练,尤其适用于处理高维数据。通过示例代码展示如何创建并训练一个简单的CartPole游戏AI,证明了该方法的有效性。未来,这项技术有望拓展至更复杂的应用场景中。
41 0
|
4月前
|
人工智能 搜索推荐 开发者
AI驱动的游戏设计:创造更智能、更沉浸的游戏体验
【7月更文第31天】人工智能(AI)技术正在深刻地改变游戏行业,不仅为游戏设计师提供了创造更丰富、更动态游戏世界的工具,也为玩家带来了更加个性化和沉浸式的体验。本文将探讨AI在游戏设计中的应用案例,并展示一些具体的实现方法。
534 2
|
5月前
|
人工智能 图形学
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
82 1
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
|
4月前
|
人工智能 搜索推荐
影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音
每个角色有自己的性格、形象,那也一定需要自己个性化的声音。
|
4月前
|
人工智能 编解码 数据可视化
影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性
随着生成式人工智能技术的发展和应用,影视与游戏行业也迎来了AI化的时代。

热门文章

最新文章

下一篇
无影云桌面