进化策略让 AI 开挂,玩游戏不断给自己续命

简介:

强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。

Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。

进化策略让 AI 开挂,玩游戏不断给自己续命

更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。

进化策略让 AI 开挂,玩游戏不断给自己续命

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。

进化策略让 AI 开挂,玩游戏不断给自己续命

分数蹭蹭往上涨

通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。


原文发布时间为:2018-06-4

本文来自云栖社区合作伙伴“雷锋网”,了解相关信息可以关注“雷锋网”。

相关文章
|
19天前
|
机器学习/深度学习 人工智能 开发者
谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真
【9月更文挑战第22天】谷歌近日推出的AI游戏引擎GameNGen,作为全球首款神经模型驱动的游戏引擎,引发了广泛关注。该引擎使用户无需编写代码即可生成游戏,并实现了与复杂环境的实时交互,显著提升了模拟质量。在单TPU上,GameNGen能以超20帧/秒的速度流畅模拟经典游戏《DOOM》。这项技术不仅简化了游戏开发流程,降低了成本,还为游戏设计带来了更多可能性。然而,它也可能改变游戏产业的商业模式和创意多样性。无论如何,GameNGen标志着游戏开发领域的一次重大革新。
25 2
|
2月前
|
存储 人工智能 供应链
AI赋能电商中小企业的三大制胜策略
AI赋能电商中小企业的三大制胜策略
AI赋能电商中小企业的三大制胜策略
|
2月前
|
人工智能 iOS开发 UED
详解苹果和微软的AI集成策略
详解苹果和微软的AI集成策略
详解苹果和微软的AI集成策略
|
1月前
|
人工智能 运维 自然语言处理
AI战略丨构建未来: 生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发, 综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。
|
14天前
|
机器学习/深度学习 人工智能 开发框架
智能ai量化高频策略交易软件、现货合约跟单模式开发技术规则
该项目涵盖智能AI量化高频策略交易软件及现货合约跟单模式开发,融合人工智能、量化交易与软件工程。软件开发包括需求分析、技术选型、系统构建、测试部署及运维;跟单模式则涉及功能定义、策略开发、交易执行、终端设计与市场推广,确保系统高效稳定运行。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
面向AI Native应用的高效迁移学习策略
【8月更文第1天】随着人工智能技术的发展,越来越多的应用场景需要定制化的AI解决方案。然而,从零开始训练一个深度学习模型往往需要大量的标注数据和计算资源。迁移学习提供了一种有效的方法来解决这个问题,它利用预训练模型的知识,通过少量的数据就能达到很好的性能。本文将深入探讨面向AI Native应用的高效迁移学习策略,并通过实例展示如何针对具体场景进行模型微调。
203 6
面向AI Native应用的高效迁移学习策略
|
2月前
|
存储 人工智能 语音技术
通义语音AI技术问题之动态加权采样策略的工作原理如何解决
通义语音AI技术问题之动态加权采样策略的工作原理如何解决
28 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的正则化技术:提升模型泛化能力的关键策略探索AI的奥秘:深度学习与神经网络
【8月更文挑战第27天】在深度学习的探索旅程中,我们常常遭遇模型过拟合的困境,就像是一位探险者在茫茫林海中迷失方向。本文将作为你的指南针,指引你理解并应用正则化技术,这一强大的工具能够帮助我们的模型更好地泛化于未见数据,就如同在未知领域中找到正确的路径。我们将从简单的L1和L2正则化出发,逐步深入到更为复杂的丢弃(Dropout)和数据增强等策略,为你的深度学习之旅提供坚实的支持。
|
3月前
|
人工智能 搜索推荐 开发者
AI驱动的游戏设计:创造更智能、更沉浸的游戏体验
【7月更文第31天】人工智能(AI)技术正在深刻地改变游戏行业,不仅为游戏设计师提供了创造更丰富、更动态游戏世界的工具,也为玩家带来了更加个性化和沉浸式的体验。本文将探讨AI在游戏设计中的应用案例,并展示一些具体的实现方法。
279 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件自动化测试的未来:AI驱动的测试策略
【7月更文挑战第47天】 随着人工智能(AI)技术不断进步,其在软件测试领域的应用也日益广泛。本文将探讨如何整合AI技术与现有的自动化测试流程,提出一个面向未来的测试策略。文章重点分析了AI在测试用例生成、执行、结果分析和持续集成中的作用,同时预测了这种技术融合对测试工程师角色的影响,以及它如何提高软件测试的效率和准确性。

热门文章

最新文章