DeepMind表示要给人工智能增加想象力?我们来仔细看看吧

简介:

因击败世界顶尖围棋选手而名声大噪的谷歌人工智能精品店——DeepMind以消灭人类在智力方面的优越感妄想而著称,发现为其软件代理注入想象力有助于它们更好地学习。

DeepMind表示要给人工智能增加想象力?我们来仔细看看吧

本周发表的两篇论文——《Imagination-Augmented Agents for Deep Reinforcement Learning》和《Learning model-based planning from scratch》(从头开始基于模型的规划)——总部在英国人工智能业务的研究人员描述了通过想象力规划提升深度强化学习的新奇技术。

强化学习是机器学习的一种形式。它包含了通过与特定环境进行交互而学习的软件代理程序,通常通过反复尝试和犯错。深度学习是一种机器的形式,涉及受到人类大脑启发的算法——被称为神经网络。而这两种技术可以一起使用。

可以使用包含软件代理运行规则的模型来完成深层强化学习。例如,为了教会软件如何玩视频游戏,研究人员可能希望提供一个包含游戏信息的模型,这样可以避免在学习过程中代价高昂的尝试和犯错。或者研究人员可能会选择无模型的强化学习,期望软件代理最终自己选择游戏。

每种方法都有自身的缺点,基于模型的方法缺少在模型中未捕获的信息,而无需模型的方法需要大量数据集并且缺乏行为灵活性。DeepMind的工作尝试融合这两种方法的优点。

这些研究人员在他们的第一篇论文中解释说:“对环境模型的结构和可能存在的缺陷没有做出任何假设,我们的方法是以端对端的方式学习提取从模型模拟中收集的有用知识——特别不依赖于模拟的回报。”他们表示,“这样就可以让代理受益于基于模型的想象,而又不会陷入传统基于模型方式的陷阱。”

他们正在描述的是能够在行动之前思考的软件。

死胡同

DeepMind的研究人员提出通过构建,评估和执行计划来学习的软件代理。它将试错学习与模拟结合作为“飞行前”检查的一种形式,以便评估最有希望的途径,同时避免明显的死胡同。

研究人员用Sokoban测试了他们的想象力代理,这是一个拼图视频游戏,是1981年在日本创建的,其中包含了在仓库里移动盒子以及飞船导航游戏。

Sokoban允许玩家推盒子,但是不可以拉动盒子,这意味着可能会有一些动作会让游戏中的难题无法解决。因此,如果是人类玩家,游戏就会建议他们在开始行动之前先制订一个计划。研究人员认为,因为DeepMind代理也能够进行这样的规划,所以也非常适合这个游戏。

想象代理设法解决了所提出的Sokoban中85%的关卡,而标准无模型代理则为只能完成60%。它的表现也超过了一个拷贝模型代理,这是一个不使用有想象规划增强版的标准代理。

研究人员在一篇博客中解释说:“对于这两个任务来说,想象增强代理在很大程度上胜过无想象的基准:它们以较少的经验学习,能够处理环境建模的缺陷。”他们表示,“因为代理能够从内部模拟中提取更多的知识,和传统的搜索方法——例如蒙特卡洛树搜索——相比,它们能够使用更少的想象,完成更多的任务。”

在行动之前思考让机器学习工作变得更慢,但研究人员认为:“这在不可逆转的领域至关重要,在这些环境中某些行动可能会产生灾难性的后果,例如Sokoban。”


原文发布时间为:2017年7月23日

本文作者:黄雅琦

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
架构师 前端开发 中间件
从工程师到技术leader的思维升级
从技术新人到一个成熟的技术leader,需要经历几个身份迭代?每一次身份的转换都需要怎样的思维升级?本文将从技术新人、潜力干将、架构师、技术leader四种身份的思维升级依次展开。
|
存储 算法 程序员
【期末计算机组成原理速成】第三章:存储器
【期末计算机组成原理速成】第三章:存储器
565 0
|
机器学习/深度学习 存储 编解码
什么是图像噪声?是如何产生的?图像去噪技术都有哪些?
图像噪声是在图像采集、传输和处理过程中产生的像素值异常现象,主要由光子计数统计、电子偏移和放大器噪声等因素引起。噪声影响图像质量,降低信噪比,使特征难以识别。图像去噪技术包括传统方法(如空间域滤波、频域滤波、图像压缩和超糅合)和基于深度学习的方法(如卷积神经网络、残差网络和生成对抗网络),旨在有效去除噪声,提高图像质量。
|
7月前
|
数据采集 人工智能 关系型数据库
《深度破局:构建MySQL数据治理框架,赋能AI项目腾飞》
在数据驱动的时代,AI项目的成功高度依赖于高质量的数据。MySQL作为广泛使用的关系型数据库,其数据治理框架的构建至关重要。本文从AI对数据质量的要求出发,探讨了在MySQL环境中制定数据治理策略(如数据标准、元数据管理和质量目标)、优化治理流程(如数据采集、清洗与存储)以及明确组织架构和职责划分的重要性。同时,强调了数据安全与隐私保护的底线,包括访问控制和加密技术的应用。通过全方位的数据治理,可为AI项目提供坚实的数据基础,推动技术创新与业务发展。
256 27
|
7月前
|
安全 Linux API
Burp Suite Professional 2025.4 发布 - Web 应用安全、测试和扫描
Burp Suite Professional 2025.4 (macOS, Linux, Windows) - Web 应用安全、测试和扫描
384 6
Burp Suite Professional 2025.4 发布 - Web 应用安全、测试和扫描
|
人工智能 自然语言处理 安全
Gemini 人工智能:谷歌AI重磅来袭!好消息,国内可用
Gemini 是 Google 🧠 开发的革命性人工智能模型,旨在打造一个功能强大的多模态 AI 系统。
|
8月前
|
开发框架 缓存 自然语言处理
HarmonyOS ArkTS声明式UI开发实战教程
本文深入探讨了ArkTS作为HarmonyOS生态中新一代声明式UI开发框架的优势与应用。首先对比了声明式与命令式开发的区别,展示了ArkTS如何通过直观高效的代码提升可维护性。接着分析了其核心三要素:数据驱动、组件化和状态管理,并通过具体案例解析布局体系、交互组件开发技巧及复杂状态管理方案。最后,通过构建完整TODO应用实战,结合调试优化指南,帮助开发者掌握声明式UI设计精髓,感受ArkTS的独特魅力。文章鼓励读者通过“破坏性实验”建立声明式编程思维,共同推动HarmonyOS生态发展。
463 3
|
11月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
11月前
|
搜索推荐 项目管理 Android开发
产品经理-面试前思考
《面试前思考 - AxureMost》涵盖面试前自查、个人情况、公司情况、产品深挖、产品基础功、项目管理与团队协作、个人特质深挖、基础履历及规划、行业知识等内容。帮助求职者全面准备,从了解公司实力、岗位要求到自我优势分析、行业理解等多方面进行梳理,确保面试时从容应对。
|
运维 JavaScript jenkins
鸿蒙5.0版开发:分析CppCrash(进程崩溃)
在HarmonyOS 5.0中,CppCrash指C/C++运行时崩溃,常见原因包括空指针、数组越界等。系统提供基于posix信号机制的异常检测能力,生成详细日志辅助定位。本文详解CppCrash分析方法,涵盖异常检测、问题定位思路及案例分析。
458 4
下一篇
oss云网关配置