少年,这有套《街霸2》AI速成心法,想传授于你……

简介:
本文来自AI新媒体量子位(QbitAI)

1dc380b5fbe3b88eb85f7e1945bfb54ff44b8ddb

“ 少年,我看你骨骼精奇,是万中无一的武学奇才。我这有套《街霸2》心法,见与你有缘,就十块钱卖……”

慢!

苦练《街霸2》可能已经没前途了。

因为AI来了。

少年,不如修习如何炼制一枚格斗游戏AI吧。量子位这有套西方来的《街霸2》AI速成心法,见与你有缘,就免费转送了……

006d6b04ebb523fc76edcac3e6066f6e552337f2

AI心法

这套心法,乃是“宅肉死抠破”(Gyroscope)所创。基于超任平台(Super Nintendo)。所用乃是强化学习之方法。依靠强化学习,AI观察世界、选择行动方式,目标是最大限度的获得奖励。

fbf53ef81cfe8cd64503ea47bcef62db0e9823d6

在游戏中也是一样。想要炼制一枚《街霸2》AI,需教会这个神经网络每个角色如何跳跃、移动、出招,还得教会它观察血量和剩余时间。我们需要把游戏中的种种信息,提炼成AI能看懂的格式,称之曰:观察空间。

观察空间

为了达到速成的目的,节省训练时间,这套心法在使用强化学习时,使用了手动定义观察空间的方式。具体来说,这个观察空间包括:

  • 每个角色的X、Y坐标
  • 血量
  • 角色是否跳跃
  • 角色是否蹲下
  • 角色移动的指令
  • 两个角色之间的绝对距离
  • 游戏时间

427051b4d1fb94319e6d27226a0c242955023aae

这个观察空间非常庞大。至少有数万亿个参数。

动作空间

AI观察环境之后,必须立刻进行下一步动作。表征可用动作最简单的方法,是使用超任手柄上的按钮:上、下、左、右、A、B、X、Y、L、R。如果考虑按钮同时按下的情况,就有1024中不同的可能。


2c46f360045866633f08f6cab18bff5ec6193761

3f3a74deaa45586f53654287c928af61e5103760

考虑动作空间的另一种方法是建立可用的动作集,例如高踢、抱摔、上切等。把一个动作转变为对应的按钮组合。这里为了节省训练时间,心法将动作空间简化为一个方向键+一个出招键的组合,例如“上+A”。

这样就把动作空间简化到35种可能性。当然,如果时间允许,我们也 可以尝试更复杂的组合方式。

奖励

一旦采取了行动,就得让AI得到奖励/惩罚。

在《街霸2》种,出招合理与否有个简单的衡量方式:血量。AI要做的就是,却把血量的最大化。如果脚踢对手,能造成10个点的伤害,那么系统就奖励AI同样的得分。

如果下次观察后,AI没有行动,只要能保持血量的差距,仍然会获得10分奖励。当然,如果表现不好,也会被扣分。

4f669b6b53f3d41995f9bee942533e15a2923b4c

 这是街霸中Dhalsim(印度)训练中的奖励情况

AI训练AI

在训练AI这件事上,Gyroscope有一套算法,可以自动搞定哪个问题用什么算法最好。在《街霸2》这件事上,简化使用了这个方法,并且选择了DQN作为强化学习的方法,当然也做了一些调整。

DQN使用模型来预测哪些动作是最优选择。至于具体的做法,这里卖个关子,稍后会在另一篇心法中详述。

模拟器

想要训练AI,得把它带到《街霸2》的世界里。问题是,手头上没有超任的SDK。幸运的是,还是找到了解决的办法。

BizHawk,支持多种模拟器内核,包括超任。BizHawk提供了一系列关键工具:

  • 一个Lua语言脚本界面,可以逐帧控制游戏
  • 一套主机内存监视工具,用以检查内存中的地址
  • 没有速度和显示限制,可以最大化游戏帧率

14d2d2bdc3343f02528f150ce1e3486031c43f87

BizHawk源代码在此:

https://github.com/TASVideos/BizHawk

有了Lua界面,就可以在《街霸2》中控制按钮、读取内存位置以及控制模拟器内核。内存探测器让AI可以直接读取对手的血量、动作等数据。

注意,这里只让AI读取了玩家能看到的信息,没有读取额外内容。

侵入内存

我们需要从内存中读取一些关键数据,来构成观察空间。在开头我们也提到过,比方角色的位置、血量、行动、时间等。这些都放在内存中的某个地方。

065c4fb3e1fbcac565537587cd1c5c3987015271

到底在哪呢?这时就可以用BizHawk的工具,来监测内存数值的变化,进而发现内存中被改变的地方。Gyroscope花了几个小时,最终确定了所有数据在内存中的位置,建立了从内存到观察空间的映射。

举个栗子,比方像下面这样:

public int get_p1_health()

{

    return _currentDomain.PeekByte(0x000530);

}

public int get_p2_health()

{

    return _currentDomain.PeekByte(0x000730);

}

搞定代码

BizHawk内嵌了Lua脚本引擎,所以Gyroscope初步尝试在Lua里写SDK。那是一个Lua库,用于访问所有的内存位置。

不过问题在于,Lua接口不支持任何网络I/O。由于服务在云端运行,所以这是一个大问题。可以借助Python从中转送,但会带来同步和速度等方面的问题。

解决的办法是放弃Lua,直接使用原生BizHawk工具,这些工具是用C#编写的。之前写的Python代码仍然保留,当做一个简单的接口,给它起了个名字叫EmulatorController。

最后的结果是,对于游戏中的每一帧画面,获得一个观察结果,然后发送给EmulatorController,这个控制器再去询问AI,得到行动指令后,返回下一帧予以执行。

这个方法的速度够快,是时候开始正式训练了~

训练AI

41efda05782b6d1ceab16365311218d9684a0eeb

随着一切准备就绪,针对AI的训练立即开始。每个角色训练了8个小时,大概3000场比赛。

72c3552a5a172ad009711b752be5347eb546400d

在训练过程中,Gyroscope尝试了观察空间、动作空间、奖励函数、DQN参数的各种不同组合,直到找到一个胜率较高的AI配置。

922a4f80819ff9305312aae20915df82a40721a4

除了标准的调优技术和良好的习惯(一次只改变一个参数),训练AI中最关键的发现是按方向键和按出招键的不均衡权重。

对于每一帧,方向键造成的影响很小,而出招键会引发一系列重大变化。例如,出拳需要很多帧才能完成。也就是说,一帧中的动作会在后续很多帧中继续产生影响。所以,AI被训练为在下一步行动前,会在20帧内持续按下出招键。

换句话说,AI不是逐帧采取行动,而是每⅓秒观察和行动一次。

很多人会问,为什么没把最终赢得胜利作为奖励?简单地说,那样的话会让训练更加困难和冗长。

训练之初,AI对三星级(街霸的星级系统)对手的胜率是20%,训练到最后,胜率已经达到90%。如果训练的时间再长,应该可以获得更好的成绩。

72c3552a5a172ad009711b752be5347eb546400d

街霸2争霸大赛

这个《街霸2》AI第一次亮相,是在刚刚结束的三星开发者大赛上。

Gyroscope搞了一个《街霸2》AI争霸大赛!

一共四位AI选手出战,每个AI控制两个角色。对战表如下图所示。

b5c0dae1a5e314bb0b19ac8b8483cf9d260ae197

最终的决赛,在M.Bison和Dhalsim之间展开。好吧,M.Bison简直是个bug级的存在,他获得了最后的胜利。

86d77db5b3d03b3b1904aea0bbe6e965e1a7f868

然后换了一组角色,再次展开捉对厮杀。

决赛中,Sagat击败本田,赢得冠军。

fb4401ee5fc0cf4059e3c34609ef70ea17a3ad2d

快取走这套心法

好吧,讲到这里,再指一条明路。Gyroscope把修改的模拟器放在GitHub上了,地址在此:

https://github.com/GyroscopeHQ/BizHawk

好吧,这套心法讲完了。今天就到这里,休息休息一下。

c44c34cb8b9698d3f4e511a17aaf62edb825b749

本文作者:千平
原文发布时间: 2017-10-29
相关文章
|
6月前
|
人工智能 Serverless 开发者
|
8月前
|
存储 人工智能 运维
少年云在行动!用“云机房”激活川藏高原学生的AI科普课堂
少年云在行动!用“云机房”激活川藏高原学生的AI科普课堂
329 1
|
人工智能 算法 Python
“天池杯”全国中小学科技少年AI领航计划启动
由中国人工智能学会发起的人才培养公益活动——“天池杯”全国中小学科技少年AI领航计划(后简称“AI领航计划”)将于9月24日在京举行发布会。
1263 2
“天池杯”全国中小学科技少年AI领航计划启动
|
人工智能 弹性计算 算法
技术无“学历” 从大专学校走出来的少年AI狂人
少年臧家河的“奇幻之旅” 因技术而开挂的人生
990 0
技术无“学历” 从大专学校走出来的少年AI狂人
|
人工智能 算法 数据挖掘
"‘天池·TEENTOP杯’AI少年挑战赛”航班启航,Python+数据科学双赛道承载少年 AI 梦
6月11日,“‘天池·TEENTOP杯’AI少年挑战赛”正式启动。本次大赛由阿里云天池主办,TEENTOP大赛平台、钉钉协办,提供Python+数据科学双赛道,并配套有免费的线上课程及编程平台。 “‘天池·TEENTOP杯’AI少年挑战赛”通过强强联手,为国内青少年提供数据科学竞技平台,旨在推动国内中小学的人工智能基础教育,挖掘和展示中国未来科技人才的智慧和能力,支持和鼓励更多优秀青少年加入数据科学的创新实践队伍。
1303 0
"‘天池·TEENTOP杯’AI少年挑战赛”航班启航,Python+数据科学双赛道承载少年 AI 梦
|
16天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
164 97
|
6天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
62 31
|
2天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
55 23
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
65 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务

热门文章

最新文章