进化策略让 AI 开挂，玩游戏不断给自己续命-阿里云开发者社区

进化策略让 AI 开挂，玩游戏不断给自己续命

2018-06-04 1597

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

强化学习会通过在系统中选择一系列的行为，把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能，例如在 Q bert 游戏中，人工智能每走一步，都要计算出合适的操作来控制这个橙色的光标，并在不碰到紫色敌人的情况下，点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题，比如雅达利游戏，已经有研究表明，进化策略（Evolution Strategies）是强化学习的可行替代方案。本期论文所提出的进化策略，目标不仅是训练一个代理而是并行训练所有代理，这种方法效率很高，就像大自然的进化那样，优胜劣汰，表现最好的代理产生新的后代。

Open AI 最近的研究结果表明，比起深度强化学习的各种通用手段，自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了，即便是年代久远的进化策略，最后的成绩也非常喜人。

进化策略让 AI 开挂，玩游戏不断给自己续命

更酷的是，在经过 5 个小时的训练后，我们发现该算法不仅能掌控游戏，还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时，出了个小故障，令我们惊喜的是，当从这个位置下落的时候，它应该是丢一条命，但因为这是个 BUG，所以没有死掉。

进化策略让 AI 开挂，玩游戏不断给自己续命

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳，然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG，据我所知这个 BUG 以前从来没有发生过，在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会我们看到游戏并没有进入下个阶段，那些方格开始闪烁，人工智能可以想要多少分就拿多少分。

进化策略让 AI 开挂，玩游戏不断给自己续命

分数蹭蹭往上涨

通过进化策略，AI 可以轻轻松松搞定诸如像雅达利这样的游戏，甚至还能发现 Bug，简直是开了挂一般的存在。

原文发布时间为：2018-06-4

本文来自云栖社区合作伙伴“雷锋网”，了解相关信息可以关注“雷锋网”。

进化策略让 AI 开挂，玩游戏不断给自己续命

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景