进化策略让 AI 开挂,玩游戏不断给自己续命

简介:
+关注继续查看

强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。

Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。

进化策略让 AI 开挂,玩游戏不断给自己续命

更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。

进化策略让 AI 开挂,玩游戏不断给自己续命

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。

进化策略让 AI 开挂,玩游戏不断给自己续命

分数蹭蹭往上涨

通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。


原文发布时间为:2018-06-4

本文来自云栖社区合作伙伴“雷锋网”,了解相关信息可以关注“雷锋网”。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
267 0
与世界同行 2017中国人工智能大会有感
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
|
人工智能 芯片
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
|
机器学习/深度学习 人工智能 自然语言处理
|
人工智能 算法 IDE
玩游戏也能学编程!少儿编程教育如何为中国AI时代“播种”?
玩游戏也能学编程!少儿编程教育如何为中国AI时代“播种”?
127 0
|
机器学习/深度学习 人工智能 机器人
图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估
图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估
202 0
|
机器学习/深度学习 存储 人工智能
推荐文章
更多