【AAAI2020】强化学习玩王者荣耀

简介: 【AAAI2020】强化学习玩王者荣耀

论文题目: Mastering Complex Controlin MOBA Games  with DeepReinforcement Learning

c0f2c1ef96364e2e468d7f3f547d437c.png

主要贡献


提出了一个深度强化学习框架,从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略,包括control dependency decoupling,action mask,target action和dual-clip PPO,借助这些策略,可以在系统中有效地训练提出的actor-critic网络。经过MOBA游戏《王者荣耀》的测试,训练有素的AI agent可以在完整的1v1游戏中击败顶尖的职业人类玩家。

系统架构


考虑到复杂的Agent控制问题可能会引入随机梯度的高方差问题,在王者荣耀1V1中,大的batch size可以加速训练,所以文章所采用的强化学习架构由四部分构成:

7cd6463358d1b5129889d2b97c300bb1.png

  • RL Learner:是一个分布式训练环境,并行从pool采样得到梯度,同步全部梯度取均值,更新策略后将策略传给AI Server。
  • AI Server:涵盖了游戏环境和AI之间的交互逻辑,用来产生数据。即从游戏中收集state,预测英雄行为。在使用中,一台AI服务器绑定一个cpu内核。我们构建了快速推断库FeatherCNN,以来更有效的生成推断模型。开源地址:https://github.com/Tencent/FeatherCNN
  • Dispatch Module:从多个AI server搜集数据并压缩、打包奥、传送到Memory
  • Memory Pool:也是服务器。它的内部实现为内存高效的循环队列,用于数据存储。它支持各种长度的样本以及基于生成时间的数据样本

算法设计


Reinforcement Learning用的还是熟悉的actor-critic网络,具体如下图所示:

3bb33f4217245a552f114b42f04fe42f.png

  • 状态设计:如上图;将图像特征fi,向量特征fu和游戏状态信息fg(可观察到的游戏状态)分别通过卷积层、最大池化层和全连接层编码。LSTM输出动作按钮和移动方向。
  • 动作解耦:认为动作之间独立,目标为最终几个策略累积奖励之和;
  • 初始随机动作产生数据;
  • action mask:根据专家经验去掉明显不合理、受限制的动作;
  • dual-PPO:原始PPO在Advantage小于0的时候也容易产生大的策略梯度,作者改进了PPO,使其支持大范围的数据训练。

dual-PPO公式:

65c302685ac5e51b8ad41297e2286bb8.png

01c5ab46c79969dcc222da02eeb3df0b.png

实验部分


实验运用了大量的CPU和GPU资源。框架运行在封装在Dockers和1,064个Nvidia GPU(Tesla P40和V100的混合物)中的总共600,000个CPU内核上。我们框架的数量允许并行实验。数据用float16存储,训练时转成float32。minibatch为4096。每个epoisode从游戏开始到结束。每天的数据量相当于人类玩500年的数据。PPO的eps=0.2,c=3,折扣因子是0.997,half-life大概46秒。GAE的lambda=0.97。游戏时按顶级玩家的133ms反应时间进行预测。训练时间跟Elo的曲线如下:

7e2f8e1279d6fd07f6821171c43076eb.png

由上图可知训练6小时打败内置行为树,30小时达到top 1%人类水平,70小时达到专业水平。

我们训练的AI强化学习跟人类顶级玩家进行1v1的竞赛


e3e590a045f71bf5ad337840ee90cbdd.png

fccdbf7f1be3462f3bcd80841a23d7f1.png

4473165c3186e57f7de21b27c84ecfee.png

Reward设计


ac297b1363d321443d19dd3153213bfd.png


相关文章
|
3月前
|
机器学习/深度学习 人工智能 安全
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
62 3
|
8月前
|
机器学习/深度学习 人工智能 机器人
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
【2月更文挑战第22天】Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
61 2
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
|
机器学习/深度学习 存储 缓存
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
673 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
|
机器学习/深度学习 人工智能 计算机视觉
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
2119 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
|
机器学习/深度学习 人工智能 自然语言处理
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
1116 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
|
机器学习/深度学习 人工智能 算法
强化学习教父Richard Sutton:也许能在2030年之前实现强人工智能算法
近日,机器之心走进了阿尔伯塔大学与这位强化学习的教父聊了聊。让我们看看 Sutton 在这次独家专访中说了些什么。
589 0
强化学习教父Richard Sutton:也许能在2030年之前实现强人工智能算法
|
机器学习/深度学习 人工智能 自然语言处理
|
算法 数据挖掘 知识图谱
CIKM'2017 最佳论文鉴赏
今年的Best Paper Award由清华大学的李国良老师团队获得,论文题为:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases《一种基于人机协作的大型知识图谱对齐方法》. 因为是Best Paper,本篇分享单独对该文章做细致解读。
4121 0
|
机器学习/深度学习 人工智能 算法
DeepMind的AI学会了画画,利用强化学习完全不需人教
如何让计算机自动模仿梵高油画?DeepMind给出了一个强化学习的方法。通过给强化学习算法设定报酬函数,反复调整算法参数,使得报酬最大,DeepMind的AI完全自学地学会了绘画。本文带来大数医达创始人邓侃博士的解读。
16063 0