【AAAI2020】强化学习玩王者荣耀

简介: 【AAAI2020】强化学习玩王者荣耀

论文题目: Mastering Complex Controlin MOBA Games  with DeepReinforcement Learning

c0f2c1ef96364e2e468d7f3f547d437c.png

主要贡献


提出了一个深度强化学习框架,从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略,包括control dependency decoupling,action mask,target action和dual-clip PPO,借助这些策略,可以在系统中有效地训练提出的actor-critic网络。经过MOBA游戏《王者荣耀》的测试,训练有素的AI agent可以在完整的1v1游戏中击败顶尖的职业人类玩家。

系统架构


考虑到复杂的Agent控制问题可能会引入随机梯度的高方差问题,在王者荣耀1V1中,大的batch size可以加速训练,所以文章所采用的强化学习架构由四部分构成:

7cd6463358d1b5129889d2b97c300bb1.png

  • RL Learner:是一个分布式训练环境,并行从pool采样得到梯度,同步全部梯度取均值,更新策略后将策略传给AI Server。
  • AI Server:涵盖了游戏环境和AI之间的交互逻辑,用来产生数据。即从游戏中收集state,预测英雄行为。在使用中,一台AI服务器绑定一个cpu内核。我们构建了快速推断库FeatherCNN,以来更有效的生成推断模型。开源地址:https://github.com/Tencent/FeatherCNN
  • Dispatch Module:从多个AI server搜集数据并压缩、打包奥、传送到Memory
  • Memory Pool:也是服务器。它的内部实现为内存高效的循环队列,用于数据存储。它支持各种长度的样本以及基于生成时间的数据样本

算法设计


Reinforcement Learning用的还是熟悉的actor-critic网络,具体如下图所示:

3bb33f4217245a552f114b42f04fe42f.png

  • 状态设计:如上图;将图像特征fi,向量特征fu和游戏状态信息fg(可观察到的游戏状态)分别通过卷积层、最大池化层和全连接层编码。LSTM输出动作按钮和移动方向。
  • 动作解耦:认为动作之间独立,目标为最终几个策略累积奖励之和;
  • 初始随机动作产生数据;
  • action mask:根据专家经验去掉明显不合理、受限制的动作;
  • dual-PPO:原始PPO在Advantage小于0的时候也容易产生大的策略梯度,作者改进了PPO,使其支持大范围的数据训练。

dual-PPO公式:

65c302685ac5e51b8ad41297e2286bb8.png

01c5ab46c79969dcc222da02eeb3df0b.png

实验部分


实验运用了大量的CPU和GPU资源。框架运行在封装在Dockers和1,064个Nvidia GPU(Tesla P40和V100的混合物)中的总共600,000个CPU内核上。我们框架的数量允许并行实验。数据用float16存储,训练时转成float32。minibatch为4096。每个epoisode从游戏开始到结束。每天的数据量相当于人类玩500年的数据。PPO的eps=0.2,c=3,折扣因子是0.997,half-life大概46秒。GAE的lambda=0.97。游戏时按顶级玩家的133ms反应时间进行预测。训练时间跟Elo的曲线如下:

7e2f8e1279d6fd07f6821171c43076eb.png

由上图可知训练6小时打败内置行为树,30小时达到top 1%人类水平,70小时达到专业水平。

我们训练的AI强化学习跟人类顶级玩家进行1v1的竞赛


e3e590a045f71bf5ad337840ee90cbdd.png

fccdbf7f1be3462f3bcd80841a23d7f1.png

4473165c3186e57f7de21b27c84ecfee.png

Reward设计


ac297b1363d321443d19dd3153213bfd.png


相关文章
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
10月前
|
数据可视化
和平精英脚本,王者荣耀脚本,autojs最新开源代码
采用模块化设计,包含通用功能、和平精英和王者荣耀三大 实现贝塞尔曲线滑动模拟真人操作,降低封号风险
|
前端开发 数据安全/隐私保护 CDN
二次元聚合短视频解析去水印系统源码
二次元聚合短视频解析去水印系统源码
565 4
|
机器学习/深度学习 编解码 人工智能
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画
ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型,通过检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。
1775 15
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画
|
机器学习/深度学习 安全 算法
「机密计算-隐私计算」科普
「机密计算-隐私计算」科普
2084 0
|
机器学习/深度学习 人工智能 自然语言处理
金鸡百花电影节AIGC电影《三岔口》:构建于想象之上的现实世界
金鸡百花电影节AIGC电影《三岔口》:构建于想象之上的现实世界
|
存储 数据采集 JSON
英雄联盟手游能“干掉”王者荣耀?微博4.3亿网友吵翻了……
英雄联盟手游能“干掉”王者荣耀?微博4.3亿网友吵翻了……
612 3
英雄联盟手游能“干掉”王者荣耀?微博4.3亿网友吵翻了……
|
Web App开发 JSON JavaScript
爬取王者荣耀图片
【10月更文挑战第11天】爬取王者荣耀图片。
1519 2
|
定位技术 图形学
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
|
移动开发 HTML5
动漫二次元漂亮的网站导航HTML5源码
二次元漂亮网站导航HTML源码,页面中还调用了很多外站的图片等链接需自行更换。
1135 4