当AI学会回忆:Deepmind提出长期信度分配新算法,登上Nature子刊

简介: 在进行目标导向的决策时,人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事,还改变了我们未来的行动,并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

在进行目标导向的决策时,人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事,还改变了我们未来的行动,并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

对于AI,这种能力有助于解决长期信度分配问题(long-term credit assignment):即如何评估行为在长期行为序列中的效用。但人工智能中现有的信度分配方法无法解决行动与结果之间存在长时间延迟的任务。

DeepMind最近发表在Nature Communications上的论文为解决这个问题提出了一种新的算法——TVT(Temporal Value Transport)。该算法也基于情景记忆检索,使AI智能体能够执行长期的信度分配。

image.png

DeepMind的研究人员介绍了一个范式,其中智能体使用特定记忆的回忆来信任过去的行为,允许它们解决现有算法难以解决的问题。这一范式拓宽了人工智能研究的范围,提供了一种对行为的机械性解释,可能会激发神经科学、心理学和行为经济学的模型。

image.png

在深度强化学习基础上引入长期信度分配的原则

人类如何表达偏好,并做出决定来确保未来的利益?这是一个长期存在的问题,最早可以追溯到效用理论的起源。在包括经济学和心理学在内的多个领域中,关于如何采用适当形式来解释未来长期决策中的结果评估,仍然是一个未解决的问题。

在人工智能研究中,长期评估单个动作的效用的问题被称为“信度分配问题”。这类评估可以对过去的行动或计划的未来行动进行评分。利用深度学习和强化学习(RL)相结合,可以产生一类体系结构和算法,用于评估这类问题。

显而易见,人类和动物证明了最新的(无模型)深度强化学习尚无法模拟某些行为。尤其是,在没有即时奖励或直接反馈的情况下做出许多行为。比如对于潜伏学习、前瞻记忆和跨时选择等行为,目前还没有有效的标准模型。另一方面,很多人类的学习和决策都是在没有任务奖励的情况下做出的,或者是在距离决策点的未来很长时间,才会获得奖励的情况下做出的。

有人认为,只有当出现通过心理时间旅行和计划进行长期信度分配的新策略时,原始的人的认知能力才真正成为现代人,从而导致突然的文化转变和社会复杂性的巨大变化。LTCA问题(long-term credit assignment)的算法进展可能会有助于可通过计算解决的决策问题。

本文实例建立在深度强化学习基础上,引入了长期信度分配的原则。首先,智能体必须编码并存储感知和事件记忆;第二,智能体必须通过识别和访问过去事件的记忆,来预测未来的回报;第三,智能体必须根据其对未来奖励的贡献,来重新评估这些过去的事件。

基于这些原理,时间价值传输(TVT)算法使用神经网络注意力记忆机制,将遥远的过去的行为归功于以后的奖励。该算法会自动将时间线上不连续的事件拼接在一起,这些事件由任务相关性及其相互关联程度来标识,从而让智能体可以将某一行为与其后果联系起来。该算法并非没有启发式元素,但我们证明了这种算法在需要LTCA的一系列任务中的有效性,而这些任务目前给深度强化学习带来了很大的困难。

实验和结果:TVT学习算法解决两类基本任务

为了研究长时间延迟和干预活动下的决策,我们将任务结构形式化为两种基本类型。每个类型由三个阶段P1-P3组成(图1a)。

image.png

图1:任务设置和Reconstructive Memory Agent

在第一种任务类型(信息获取任务)中,在P1,agent必须在没有即时奖励的情况下探索一个环境来获取信息;在P2,agent长时间从事一项不相关的干扰任务,并获得了许多附带奖励;在P3,agent必须利用P1中获取的信息获取远端奖励。

在第二种任务类型(因果任务)中,agent必须采取行动触发P1中的某个事件,该事件只有长期因果后果。P2同样是一个分散注意力的任务,但在P3中,agent必须利用其在P1中的活动所引起的环境变化来取得成功。

由于我们提出的解决方案的一个关键部分涉及到记忆编码和检索,所以我们认为P1是由随后的记忆编码的动作组成,P2是干扰因素,P3是利用(图1a)。

image.png

图1a:3阶段的任务结构。在P1,没有奖励,但是agent必须寻找信息或者触发事件。在P2,agent执行一个提供奖励的干扰任务。在P3, agent可以根据其在P1中的行为获得远端奖励。

虽然我们有时会报告P2中的性能,但为了确保agent在执行干扰任务时的性能是相同的,我们将主要关注P3中agent获得的性能。挑战在于在P1中产生有助于P3表现的行为,从而实现LTCA。虽然这种任务结构是设计的,但它使我们能够系统地控制延迟时间和干扰奖励的差异。

在这些假设下,我们可以通过在策略梯度估计中定义一个引起P1行为适应的信噪比(SNR)来理解为什么干扰阶段会对LTCA造成损害。

重建记忆智能体(Reconstructive Memory Agent, RMA)

我们使用一个AI智能体来解决这个任务,将其命名为RMA(图1c),它是从以前的模型简化而来的。关键的是,这个模型结合了一个重建过程来压缩有用的感官信息和记忆存储,这些存储可以通过基于内容的寻址查询来通知agent的决策。RMA本身不具有支持LTCA的专门功能,但是为TVT算法的操作提供了基础。

现在我们转到需要LTCA的第1类的信息获取任务,即Active Visual Match。这里,在P1阶段,agent必须主动地在一个两个房间的迷宫中随机找到一个彩色正方形,这样它才能决定P3中的匹配项(图2a)。

如果一个agent在P1中偶然发现了视觉线索,那么它可以在P3中使用这个信息,但这只能是随机成功的。在被动的视觉匹配中,agent在P2阶段执行一个30秒的收集苹果干扰任务。

image.png

图2:Temporal Value Transport 和第一类信息获取任务。

Temporal Value Transport

TVT是一种学习算法,它增强了基于记忆的智能体解决LTCA问题的能力。我们可以将注意力记忆访问与RL结合起来,通过自动发现如何忽略它来有效地将问题转换成一个没有延迟的问题,从而对抗偏差。

RL里的一个标准技术是通过bootstrapping来估计策略梯度计算的收益:使用学习的值函数,它是确定的,因此方差小,但有偏差,以减少回报计算中的方差。

在图2c中,我们强调了TVT背后的基本原理。在之前的Passive Visual Match 任务中,我们看到RMA读取机制学会了从P1中检索记忆,以生成P3中的值函数预测和策略。

当应用于具有较大干扰奖励的Active Visual Match 任务时,具有TVT的RMA模型在P1阶段学习了正确的行为,甚至比没有干扰奖励的RMA更快。(图2 b, d)。学习行为的差异是戏剧性的:TVT可靠地找到了P1中的彩色方块,而RMA表现随机(图3)。

image.png

图3:主动视觉匹配任务中agent的分析

TVT还可以解决第二类因果关系任务,其中,agent不需要为P3获取P1中的信息,而是必须引起将影响P3中环境状态的事件。这里我们研究的是Key-to-Door(KtD)任务,在这个任务中,一个agent必须学会在P1中捡起一把钥匙,这样它才能打开P3中的一扇门,从而获得奖励(图4a)。

image.png

图4:第二类因果任务。

在确定TVT能够解决简单问题之后,我们现在将在两个更复杂的场景中演示TVT的能力。第一个是KtD和Active Visual Match 任务的结合,演示了跨多个阶段的TVT——捡钥匙开门到匹配任务(KtDtM);在这种情况下,agent必须表现出两个非连续行为才能获得远端奖赏。

这个任务有P1–P5五个阶段(Fig. 5a).

image.png

图5:Transport across multiple phases.

最后,我们来看一个更丰富的任务——潜在信息获取(图6a)。

TVT agent单独完成了任务(图6b,黑色曲线),通常在P1中接触所有三个对象(图6d),而RMA平均只接触一个对象(图6b,其他颜色)。在P1中,对象被放置在6个可能位置的网格中(与P3位置无关)。只有TVT学习到一种探索性的扫描行为,可以有效地覆盖对象所在的位置(图6c);RMA移动到同一角落,因此意外地触及了一个物体。

image.png

图6:更复杂的信息获取任务

该研究的代码已开源:

https://github.com/deepmind/deepmind-research/tree/master/tvt

文章来源:新智元

相关文章
|
2月前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
2月前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
4天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
24 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
28天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
163 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
26天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
36 6
【AI系统】QNNPack 算法
|
26天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
49 5
【AI系统】Im2Col 算法
|
26天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
33 2
【AI系统】Winograd 算法
|
14天前
|
人工智能 算法
AI+脱口秀,笑点能靠算法创造吗
脱口秀是一种通过幽默诙谐的语言、夸张的表情与动作引发观众笑声的表演艺术。每位演员独具风格,内容涵盖个人情感、家庭琐事及社会热点。尽管我尝试用AI生成脱口秀段子,但AI缺乏真实的情感共鸣和即兴创作能力,生成的内容显得不够自然生动,难以触及人心深处的笑点。例如,AI生成的段子虽然流畅,却少了那份不期而遇的惊喜和激情,无法真正打动观众。 简介:脱口秀是通过幽默语言和夸张表演引发笑声的艺术形式,AI生成的段子虽流畅但缺乏情感共鸣和即兴创作力,难以达到真人表演的效果。
|
2月前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
|
30天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
51 3