进化策略让 AI 开挂,玩游戏不断给自己续命

简介:

强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。

Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。

进化策略让 AI 开挂,玩游戏不断给自己续命

更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。

进化策略让 AI 开挂,玩游戏不断给自己续命

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。

进化策略让 AI 开挂,玩游戏不断给自己续命

分数蹭蹭往上涨

通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。


原文发布时间为:2018-06-4

本文来自云栖社区合作伙伴“雷锋网”,了解相关信息可以关注“雷锋网”。

相关文章
|
8月前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
458 48
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
2月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
140 4
AI代理内存消耗过大?9种优化策略对比分析
|
4月前
|
数据采集 存储 人工智能
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
本文深度聚焦 AI 模型训练效率优化,全面涵盖数据预处理(清洗、归一化、增强)、模型架构(轻量级应用、剪枝与量化)、训练算法与超参数调优(自适应学习率、优化算法)等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例,佐以丰富且详细的代码示例,深度剖析技术原理与应用技巧,为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典,助力高效优化模型训练效率与性能提升。
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
5月前
|
人工智能 自然语言处理 前端开发
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
DeepSite是基于DeepSeek-V3模型的在线开发工具,无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码,并支持实时预览效果,显著降低开发门槛。
1131 93
DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码
|
28天前
|
存储 人工智能 自然语言处理
深入解析AI智能体记忆机制:八大策略与实现方案
本文系统介绍了AI智能体8种主流记忆管理策略:从基础的全量记忆、滑动窗口,到智能的相关性过滤、摘要压缩,再到高阶的向量数据库、知识图谱,以及综合的分层记忆和类OS内存管理。详解各策略原理、代码示例、优缺点及适用场景,助你根据业务需求选择最佳方案,构建高效且个性化的AI对话系统。
|
29天前
|
存储 人工智能 搜索推荐
AI智能体记忆机制深度解析:8种策略与实现思路
AI智能体的记忆能力是构建高质量对话与个性化服务的核心。本文解析8种常用记忆策略,包括全量记忆、滑动窗口、相关性过滤、摘要压缩、向量数据库、知识图谱、分层记忆及类OS内存管理,结合代码示例说明其原理与适用场景,助力开发者根据业务需求选择合适方案,实现高效、可扩展的AI系统。
|
2月前
|
人工智能 缓存 API
8大AI记忆优化策略助你突破智能体上下文限制
本文深入解析AI系统中的记忆管理策略,涵盖8种主流方案及工程实现,助你突破上下文限制,构建高效智能体。
426 0
|
2月前
|
数据采集 人工智能 调度
传统IT企业如何在AI时代中找准定位、实现转型升级?—— 解析传统IT企业的AI转型策略
本文AI专家三桥君探讨传统IT企业在AI浪潮中的转型策略,提出从工具提供商向业务成果交付者的商业模式转变。核心观点包括:构建"操作系统式AI"技术架构、发展"智能体经济"组织模式、采用SMART策略实现高效部署。三桥君强调AI转型需商业模式、组织架构与技术体系的全面革新,为传统IT企业提供系统性转型框架。
109 0
|
3月前
|
机器学习/深度学习 人工智能 运维
探讨AI数字人软件系统的开发与部署策略
随着科技发展,人工智能成为经济转型的关键驱动力,AI数字人软件系统在各行业广泛应用。本文探讨其开发与部署策略,助力企业和开发者参考。开发策略包括需求分析、技术选型、模块化设计、数据驱动及安全性保障;部署策略涵盖硬件环境、软件配置、分布式与云端部署以及运维保障,推动系统智能化与稳定性提升。

热门文章

最新文章