AI有了更强的想象力!DeepMind又立功了 | 附两篇新论文

简介:
本文来自AI新媒体量子位(QbitAI)

人类,可以在行动之前预想到后果,这是我们认知能力中一种强大的工具。

举例来说,当我们将玻璃杯放在桌子边缘时,我们很可能会考虑一下放得稳不稳,是否会掉下来。基于对后果的思考,我们可能会调整玻璃杯的位置,避免掉在地上打碎。

这种慎重性的思考本质上是“想象力”。这是一种人类独有的能力,也是日常生活中重要的工具。

如果我们希望算法实现同样的复杂行为,那么算法也必须能够“想象”,对未来进行推理。除此以外,算法必须利用这些知识构建计划。

在这个领域,我们已看到了丰富的成果,例如AlphaGo这样的程序。AlphaGo利用“内部模型”,分析每步操作会在未来带来什么样的结果,从而进行推理和计划。

这些内部模型非常强大,因为围棋是一种“完美的”环境。围棋有明确定义的规则,因此在几乎任何情况下都可以非常准确地预测结果。

然而,现实世界情况更复杂,规则没有明确定义,预期之外的结果常常会出现。即使是最聪明的人工智能系统,在这种复杂环境中展开想象都会是漫长而成本高昂的过程。

在两篇最新论文中,我们描述了一类新方法,让人工智能建立以想象力为基础的计划能力。我们还提出了一种架构,给人工智能系统提供新方式,去学习并构建计划,最大化任务效率。对于不完美模型,这些架构高效而健壮,可以利用灵活的策略去发挥想象力。

这两篇新论文是:

Imagination-Augmented Agents for Deep Reinforcement Learning
https://arxiv.org/abs/1707.06203

Learning model-based planning from scratch
https://arxiv.org/abs/1707.06170

想象力增强的人工智能系统

我们介绍的这些人工智能系统受益于“想象编码器”。这种神经网络可以学会提取有用信息,用于未来的决策,同时忽略不相关的信息。

这样的人工智能系统拥有许多独特之处:

它们学会表达内部模拟结果。这意味着它们可以利用模型,捕捉粗略的环境变化,即使这样的变化并不完美。

它们有效地利用想象力。它们可以利用多条想象轨迹来适配问题。此外,编码器也提高了效率。这种编码器可以从奖励之外的想象中提取额外信息。这样的想象轨迹并不一定带来最高的回报,但可能包含有用的线索。

它们可以学习不同策略,从而构建计划。它们可以选择继续当前的想象轨迹,或重新开始一条想象轨迹。或者说,它们可以使用不同的想象模型,而这些模型拥有不同的精确度和计算成本。这带来了广泛而高效的规划策略,而不会被局限于单一方法,导致对不完美环境的适应性受限。

架构的测试

我们利用多种任务去测试提出的架构,包括解谜游戏《Sokoban》,以及一款太空飞船导航游戏。这两款游戏都需要前瞻性的规划和推理,因此是测试我们人工智能系统的绝佳环境。

在《Sokoban》游戏中,人工智能系统将盒子推到目标之上。由于盒子只能向前推,因此许多操作是不可逆的(例如盒子一旦推到角落,就无法再拉出来)。

在太空飞船游戏中,人工智能系统必须按照固定次数去启动推进器,使飞船保持稳定。这样的操作需要适应不同星球的引力。因此,这是一种非线性的复杂持续控制任务。

为了限制这两种任务中的试错次数,每一关卡都用程序生成,而人工智能系统只能尝试一次。这就鼓励人工智能系统在现实环境测试之前,尝试不同的策略。


 人工智能agent在不了解规则的情况下,玩Sokoban游戏时的表现。我们在某些时间点,对agent想象的五种未来进行可视化,agent会根据这种信息决定该如何采取行动。

 上图是agent在太空飞船游戏中的表现,红线是实际的轨迹,绿线和蓝线是agent“想象”的轨迹。

对于这两种任务,想象力增强的人工智能系统表现得都比没有想象力的更好。它们可以根据较少的经验进行学习,并且有能力处理建模环境中的不完美之处。

由于人工智能系统可以从内部模拟中提取更多知识,因此相对于传统搜索方法,例如蒙特卡洛树搜索,可以借助较少的想象步数去更好地完成任务。

当我们添加能协助构建计划的额外“管理”组件之后,人工智能系统可以更高效地学会用更少的步数解决问题。

在太空飞船任务中,人工智能系统可以分辨环境中引力的强弱,而引力的不同需要配合不同的想象步数。当人工智能系统面对多种环境模型,每种环境模型的质量和成本优势各不相同时,它可以学会做出有意义的权衡。最后,如果每步行动会导致想象的计算成本上升,那么人工智能系统就会提前想象多个连锁行为产生的后果,随后持续依赖这样的计划,而不会再次展开想象。

能够处理不完美模型,并学会如何使规划策略适应当前状态,这是重要的研究课题。

我们的两篇新论文,以及Hamrick等人此前的工作考虑了这些问题。基于模型的增强学习和规划是热门研究领域,而我们仍需要进一步分析和思考,从而带来可以规模化的解决方案,帮助人工智能系统利用想象力对未来进行推理和计划。

OMT

昨天,DeepMind创始人兼CEO哈萨比斯,还在访谈中提到想象力以及神经科学和人工智能的融合借鉴。他说:只有了解大脑,才能开发出更强的AI。而且也发了论文~

【完】

本文作者:陈桦 
原文发布时间:2017-07-21 
相关文章
|
11天前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
282 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
16天前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
122 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
6月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
393 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
19天前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
103 10
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
781 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
1月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
329 1
|
7月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
370 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
7月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
290 0
|
9月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
292 26
|
6月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
1941 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留

热门文章

最新文章