当AI学会回忆:Deepmind提出长期信度分配新算法,登上Nature子刊

简介: 在进行目标导向的决策时,人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事,还改变了我们未来的行动,并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

在进行目标导向的决策时,人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事,还改变了我们未来的行动,并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

对于AI,这种能力有助于解决长期信度分配问题(long-term credit assignment):即如何评估行为在长期行为序列中的效用。但人工智能中现有的信度分配方法无法解决行动与结果之间存在长时间延迟的任务。

DeepMind最近发表在Nature Communications上的论文为解决这个问题提出了一种新的算法——TVT(Temporal Value Transport)。该算法也基于情景记忆检索,使AI智能体能够执行长期的信度分配。

image.png

DeepMind的研究人员介绍了一个范式,其中智能体使用特定记忆的回忆来信任过去的行为,允许它们解决现有算法难以解决的问题。这一范式拓宽了人工智能研究的范围,提供了一种对行为的机械性解释,可能会激发神经科学、心理学和行为经济学的模型。

image.png

在深度强化学习基础上引入长期信度分配的原则

人类如何表达偏好,并做出决定来确保未来的利益?这是一个长期存在的问题,最早可以追溯到效用理论的起源。在包括经济学和心理学在内的多个领域中,关于如何采用适当形式来解释未来长期决策中的结果评估,仍然是一个未解决的问题。

在人工智能研究中,长期评估单个动作的效用的问题被称为“信度分配问题”。这类评估可以对过去的行动或计划的未来行动进行评分。利用深度学习和强化学习(RL)相结合,可以产生一类体系结构和算法,用于评估这类问题。

显而易见,人类和动物证明了最新的(无模型)深度强化学习尚无法模拟某些行为。尤其是,在没有即时奖励或直接反馈的情况下做出许多行为。比如对于潜伏学习、前瞻记忆和跨时选择等行为,目前还没有有效的标准模型。另一方面,很多人类的学习和决策都是在没有任务奖励的情况下做出的,或者是在距离决策点的未来很长时间,才会获得奖励的情况下做出的。

有人认为,只有当出现通过心理时间旅行和计划进行长期信度分配的新策略时,原始的人的认知能力才真正成为现代人,从而导致突然的文化转变和社会复杂性的巨大变化。LTCA问题(long-term credit assignment)的算法进展可能会有助于可通过计算解决的决策问题。

本文实例建立在深度强化学习基础上,引入了长期信度分配的原则。首先,智能体必须编码并存储感知和事件记忆;第二,智能体必须通过识别和访问过去事件的记忆,来预测未来的回报;第三,智能体必须根据其对未来奖励的贡献,来重新评估这些过去的事件。

基于这些原理,时间价值传输(TVT)算法使用神经网络注意力记忆机制,将遥远的过去的行为归功于以后的奖励。该算法会自动将时间线上不连续的事件拼接在一起,这些事件由任务相关性及其相互关联程度来标识,从而让智能体可以将某一行为与其后果联系起来。该算法并非没有启发式元素,但我们证明了这种算法在需要LTCA的一系列任务中的有效性,而这些任务目前给深度强化学习带来了很大的困难。

实验和结果:TVT学习算法解决两类基本任务

为了研究长时间延迟和干预活动下的决策,我们将任务结构形式化为两种基本类型。每个类型由三个阶段P1-P3组成(图1a)。

image.png

图1:任务设置和Reconstructive Memory Agent

在第一种任务类型(信息获取任务)中,在P1,agent必须在没有即时奖励的情况下探索一个环境来获取信息;在P2,agent长时间从事一项不相关的干扰任务,并获得了许多附带奖励;在P3,agent必须利用P1中获取的信息获取远端奖励。

在第二种任务类型(因果任务)中,agent必须采取行动触发P1中的某个事件,该事件只有长期因果后果。P2同样是一个分散注意力的任务,但在P3中,agent必须利用其在P1中的活动所引起的环境变化来取得成功。

由于我们提出的解决方案的一个关键部分涉及到记忆编码和检索,所以我们认为P1是由随后的记忆编码的动作组成,P2是干扰因素,P3是利用(图1a)。

image.png

图1a:3阶段的任务结构。在P1,没有奖励,但是agent必须寻找信息或者触发事件。在P2,agent执行一个提供奖励的干扰任务。在P3, agent可以根据其在P1中的行为获得远端奖励。

虽然我们有时会报告P2中的性能,但为了确保agent在执行干扰任务时的性能是相同的,我们将主要关注P3中agent获得的性能。挑战在于在P1中产生有助于P3表现的行为,从而实现LTCA。虽然这种任务结构是设计的,但它使我们能够系统地控制延迟时间和干扰奖励的差异。

在这些假设下,我们可以通过在策略梯度估计中定义一个引起P1行为适应的信噪比(SNR)来理解为什么干扰阶段会对LTCA造成损害。

重建记忆智能体(Reconstructive Memory Agent, RMA)

我们使用一个AI智能体来解决这个任务,将其命名为RMA(图1c),它是从以前的模型简化而来的。关键的是,这个模型结合了一个重建过程来压缩有用的感官信息和记忆存储,这些存储可以通过基于内容的寻址查询来通知agent的决策。RMA本身不具有支持LTCA的专门功能,但是为TVT算法的操作提供了基础。

现在我们转到需要LTCA的第1类的信息获取任务,即Active Visual Match。这里,在P1阶段,agent必须主动地在一个两个房间的迷宫中随机找到一个彩色正方形,这样它才能决定P3中的匹配项(图2a)。

如果一个agent在P1中偶然发现了视觉线索,那么它可以在P3中使用这个信息,但这只能是随机成功的。在被动的视觉匹配中,agent在P2阶段执行一个30秒的收集苹果干扰任务。

image.png

图2:Temporal Value Transport 和第一类信息获取任务。

Temporal Value Transport

TVT是一种学习算法,它增强了基于记忆的智能体解决LTCA问题的能力。我们可以将注意力记忆访问与RL结合起来,通过自动发现如何忽略它来有效地将问题转换成一个没有延迟的问题,从而对抗偏差。

RL里的一个标准技术是通过bootstrapping来估计策略梯度计算的收益:使用学习的值函数,它是确定的,因此方差小,但有偏差,以减少回报计算中的方差。

在图2c中,我们强调了TVT背后的基本原理。在之前的Passive Visual Match 任务中,我们看到RMA读取机制学会了从P1中检索记忆,以生成P3中的值函数预测和策略。

当应用于具有较大干扰奖励的Active Visual Match 任务时,具有TVT的RMA模型在P1阶段学习了正确的行为,甚至比没有干扰奖励的RMA更快。(图2 b, d)。学习行为的差异是戏剧性的:TVT可靠地找到了P1中的彩色方块,而RMA表现随机(图3)。

image.png

图3:主动视觉匹配任务中agent的分析

TVT还可以解决第二类因果关系任务,其中,agent不需要为P3获取P1中的信息,而是必须引起将影响P3中环境状态的事件。这里我们研究的是Key-to-Door(KtD)任务,在这个任务中,一个agent必须学会在P1中捡起一把钥匙,这样它才能打开P3中的一扇门,从而获得奖励(图4a)。

image.png

图4:第二类因果任务。

在确定TVT能够解决简单问题之后,我们现在将在两个更复杂的场景中演示TVT的能力。第一个是KtD和Active Visual Match 任务的结合,演示了跨多个阶段的TVT——捡钥匙开门到匹配任务(KtDtM);在这种情况下,agent必须表现出两个非连续行为才能获得远端奖赏。

这个任务有P1–P5五个阶段(Fig. 5a).

image.png

图5:Transport across multiple phases.

最后,我们来看一个更丰富的任务——潜在信息获取(图6a)。

TVT agent单独完成了任务(图6b,黑色曲线),通常在P1中接触所有三个对象(图6d),而RMA平均只接触一个对象(图6b,其他颜色)。在P1中,对象被放置在6个可能位置的网格中(与P3位置无关)。只有TVT学习到一种探索性的扫描行为,可以有效地覆盖对象所在的位置(图6c);RMA移动到同一角落,因此意外地触及了一个物体。

image.png

图6:更复杂的信息获取任务

该研究的代码已开源:

https://github.com/deepmind/deepmind-research/tree/master/tvt

文章来源:新智元

相关文章
|
7天前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
1月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
33 1
|
8天前
|
机器学习/深度学习 人工智能 监控
智慧交通AI算法解决方案
智慧交通AI算法方案针对交通拥堵、违法取证难等问题,通过AI技术实现交通管理的智能化。平台层整合多种AI能力,提供实时监控、违法识别等功能;展现层与应用层则通过一张图、路口态势研判等工具,提升交通管理效率。方案优势包括先进的算法、系统集成性和数据融合性,应用场景涵盖车辆检测、道路环境检测和道路行人检测等。
|
7天前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
智慧化工厂AI算法方案
|
1月前
|
缓存 算法 Java
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
这篇文章详细介绍了Java虚拟机(JVM)中的垃圾回收机制,包括垃圾的定义、垃圾回收算法、堆内存的逻辑分区、对象的内存分配和回收过程,以及不同垃圾回收器的工作原理和参数设置。
65 4
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
|
24天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
1月前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
31 5
|
1月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
50 1
|
1月前
|
机器学习/深度学习 人工智能 开发框架
【AI系统】AI 学习方法与算法现状
在人工智能的历史长河中,我们见证了从规则驱动系统到现代机器学习模型的转变。AI的学习方法基于深度神经网络,通过前向传播、反向传播和梯度更新不断优化权重,实现从训练到推理的过程。当前,AI算法如CNN、RNN、GNN和GAN等在各自领域取得突破,推动技术进步的同时也带来了更大的挑战,要求算法工程师与系统设计师紧密合作,共同拓展AI技术的边界。
81 1
|
1月前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。

热门文章

最新文章

下一篇
无影云桌面