AI有了更强的想象力!DeepMind又立功了 | 附两篇新论文

简介:
本文来自AI新媒体量子位(QbitAI)

人类,可以在行动之前预想到后果,这是我们认知能力中一种强大的工具。

举例来说,当我们将玻璃杯放在桌子边缘时,我们很可能会考虑一下放得稳不稳,是否会掉下来。基于对后果的思考,我们可能会调整玻璃杯的位置,避免掉在地上打碎。

这种慎重性的思考本质上是“想象力”。这是一种人类独有的能力,也是日常生活中重要的工具。

如果我们希望算法实现同样的复杂行为,那么算法也必须能够“想象”,对未来进行推理。除此以外,算法必须利用这些知识构建计划。

在这个领域,我们已看到了丰富的成果,例如AlphaGo这样的程序。AlphaGo利用“内部模型”,分析每步操作会在未来带来什么样的结果,从而进行推理和计划。

这些内部模型非常强大,因为围棋是一种“完美的”环境。围棋有明确定义的规则,因此在几乎任何情况下都可以非常准确地预测结果。

然而,现实世界情况更复杂,规则没有明确定义,预期之外的结果常常会出现。即使是最聪明的人工智能系统,在这种复杂环境中展开想象都会是漫长而成本高昂的过程。

在两篇最新论文中,我们描述了一类新方法,让人工智能建立以想象力为基础的计划能力。我们还提出了一种架构,给人工智能系统提供新方式,去学习并构建计划,最大化任务效率。对于不完美模型,这些架构高效而健壮,可以利用灵活的策略去发挥想象力。

这两篇新论文是:

Imagination-Augmented Agents for Deep Reinforcement Learning
https://arxiv.org/abs/1707.06203

Learning model-based planning from scratch
https://arxiv.org/abs/1707.06170

想象力增强的人工智能系统

我们介绍的这些人工智能系统受益于“想象编码器”。这种神经网络可以学会提取有用信息,用于未来的决策,同时忽略不相关的信息。

这样的人工智能系统拥有许多独特之处:

它们学会表达内部模拟结果。这意味着它们可以利用模型,捕捉粗略的环境变化,即使这样的变化并不完美。

它们有效地利用想象力。它们可以利用多条想象轨迹来适配问题。此外,编码器也提高了效率。这种编码器可以从奖励之外的想象中提取额外信息。这样的想象轨迹并不一定带来最高的回报,但可能包含有用的线索。

它们可以学习不同策略,从而构建计划。它们可以选择继续当前的想象轨迹,或重新开始一条想象轨迹。或者说,它们可以使用不同的想象模型,而这些模型拥有不同的精确度和计算成本。这带来了广泛而高效的规划策略,而不会被局限于单一方法,导致对不完美环境的适应性受限。

架构的测试

我们利用多种任务去测试提出的架构,包括解谜游戏《Sokoban》,以及一款太空飞船导航游戏。这两款游戏都需要前瞻性的规划和推理,因此是测试我们人工智能系统的绝佳环境。

在《Sokoban》游戏中,人工智能系统将盒子推到目标之上。由于盒子只能向前推,因此许多操作是不可逆的(例如盒子一旦推到角落,就无法再拉出来)。

在太空飞船游戏中,人工智能系统必须按照固定次数去启动推进器,使飞船保持稳定。这样的操作需要适应不同星球的引力。因此,这是一种非线性的复杂持续控制任务。

为了限制这两种任务中的试错次数,每一关卡都用程序生成,而人工智能系统只能尝试一次。这就鼓励人工智能系统在现实环境测试之前,尝试不同的策略。


 人工智能agent在不了解规则的情况下,玩Sokoban游戏时的表现。我们在某些时间点,对agent想象的五种未来进行可视化,agent会根据这种信息决定该如何采取行动。

 上图是agent在太空飞船游戏中的表现,红线是实际的轨迹,绿线和蓝线是agent“想象”的轨迹。

对于这两种任务,想象力增强的人工智能系统表现得都比没有想象力的更好。它们可以根据较少的经验进行学习,并且有能力处理建模环境中的不完美之处。

由于人工智能系统可以从内部模拟中提取更多知识,因此相对于传统搜索方法,例如蒙特卡洛树搜索,可以借助较少的想象步数去更好地完成任务。

当我们添加能协助构建计划的额外“管理”组件之后,人工智能系统可以更高效地学会用更少的步数解决问题。

在太空飞船任务中,人工智能系统可以分辨环境中引力的强弱,而引力的不同需要配合不同的想象步数。当人工智能系统面对多种环境模型,每种环境模型的质量和成本优势各不相同时,它可以学会做出有意义的权衡。最后,如果每步行动会导致想象的计算成本上升,那么人工智能系统就会提前想象多个连锁行为产生的后果,随后持续依赖这样的计划,而不会再次展开想象。

能够处理不完美模型,并学会如何使规划策略适应当前状态,这是重要的研究课题。

我们的两篇新论文,以及Hamrick等人此前的工作考虑了这些问题。基于模型的增强学习和规划是热门研究领域,而我们仍需要进一步分析和思考,从而带来可以规模化的解决方案,帮助人工智能系统利用想象力对未来进行推理和计划。

OMT

昨天,DeepMind创始人兼CEO哈萨比斯,还在访谈中提到想象力以及神经科学和人工智能的融合借鉴。他说:只有了解大脑,才能开发出更强的AI。而且也发了论文~

【完】

本文作者:陈桦 
原文发布时间:2017-07-21 
相关文章
|
8月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
183 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
8月前
|
机器学习/深度学习 人工智能 安全
【论文速递】CSET - 小数据的大AI潜力
【论文速递】CSET - 小数据的大AI潜力
72 0
|
14天前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
53 26
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
109 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
7天前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
48 27
|
1月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
215 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
3月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
236 1
|
4月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
83 4
|
8月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
116 1
|
8月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
117 3

热门文章

最新文章