大脑海马体藏有学习本质的秘密,这是DeepMind新发现 | 附论文

简介:
本文来自AI新媒体量子位(QbitAI)

DeepMind在神经科学和人工智能结合的探索上又有新进展。

海马体“预测地图”

有没有想过这些问题:你是如何选择的上班路线,你是如何决定搬家去哪里,下棋的时候你是怎么决定走出那一步?

所有这些场景中,其实都存在一个估计:你的决策在未来能获得多大的回报。

这很微妙,你考虑的未来越远,可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题,而在人工智能研究中,开发能有效预测未来回报的系统也是个关注重点。

在《自然神经科学》(Nature Neuroscience)上新发布的论文中,DeepMind将神经科学知识应用于机器学习中的数学理论,从而带来关于学习和记忆本质的新见解。

具体来说,DeepMind认为,大脑中的一块区域,即海马体,对这个问题提供了独特的解决方案。海马体运用被DeepMind称作“预测地图”的机制来高度总结未来的事件。

传统观点认为,海马体只反映动物当前的状态,尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持,因为在啮齿动物的海马体中发现了“位置细胞”:当动物处于特定位置时,这些细胞将会被激活。

(量子位注:2014年诺贝尔生理或医学奖,被授予了美英双国籍的神经生物学家John O’Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇,以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元,这些神经元构成了一个精巧的定位系统,使人们能够认知自己在空间中所处的位置,并帮助人们进行导航。)

尽管这种理论可以解释许多神经生理学发现,但无法完全解释,为何海马体也参与了其他功能,例如记忆、关系推理和决策。

DeepMind的新理论认为,在计算未来最大回报的过程中,思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。

DeepMind的关键思路是,为了估计未来回报,人工智能agent(智能体)必须首先估计,在每种状态下预计能获得多少立即回报,随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报,agent可以得出对未来回报的估计。

类似的,DeepMind认为海马体代表了全部状态,即海马体预测到的未来所有状态。

例如,如果你即将下班(即当前状态),那么海马体会做出这样的预测:你很快就会动身,前往学校接孩子,最后回到距离更远的家中。

通过判断每个当前状态与预期后续状态的关系,海马体可以对未来事件做出高度的总结,这种行为的学名是“后续表现”。DeepMind认为,这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境,同时不必对未来展开计算开销极高的模拟。

这种思路结合了两种算法的优势。这两种算法已在强化学习的研究中很知名,同时也被认为存在于人类和啮齿动物的大脑中。“基于模型”的算法能学习环境模型,随后通过模拟得出对未来回报的估计。“无模型”算法则直接从环境经验中得出对未来回报的估计。基于模型的算法很灵活,但有着很大的计算开销。无模型算法计算开销较小,但不太灵活。

DeepMind理论中的算法结合了基于模型算法的灵活性,以及无模型算法的计算效率。由于计算过程是简单的加权求和,因此计算过程非常高效,类似于无模型算法。与此同时,通过区分回报预期和状态预期(即预测地图),算法可以在维持状态预期不变的情况下刷新回报预期,从而快速适应回报的改变。

DeepMind计划在未来工作中进一步检验这种理论。由于预测地图理论可以被转换为多种神经网络架构,因此DeepMind希望探索这种学习策略如何推动灵活快速的规划。

在更普遍的意义上,未来的一项主要任务是研究大脑如何整合不同类型的学习方式。尽管DeepMind用这个模型去替代大脑中基于模型和无模型的学习方式,但更贴近现实的情况是,在学习和规划过程中,大脑同时展开了多种类型的学习。

理解这些学习算法如何配合运转是理解人类和动物大脑的重要一步,也将指导DeepMind设计复杂、多面的人工智能。

只有了解大脑,才能开发出更强的AI

因为创造出AlphaGo而名满天下的DeepMind,一直在思考人工智能如何达到下个高度。

在DeepMind创始人哈萨比斯看来,答案就在于人类中间,或者说人类的身体中。他一直认为,人工智能需要与神经科学重新建立联系。只有更多地了解自然智能,我们才能真正理解(并开发出)人工智能。

下面这段,摘自自哈萨比斯7月的一次访谈。

问:你以往曾讨论过,DeepMind最大的目标之一是开发人工智能,促进更多的科学发现,使其成为提高人类创造力的工具。神经科学如何帮助你达到这个目标?

哈萨比斯:实际上有两种方式。其中之一是将神经科学作为算法和架构理念的灵感来源。关于开发通用智能的可行性,人类大脑是唯一现存的证明。因此我们认为,有必要付诸努力,尝试并理解这些能力是如何形成的。随后我们可以看看,是否有些办法,将其转移至机器学习和人工智能。

这也是我在博士阶段研究神经科学的原因:关注大脑的记忆和想象力,理解大脑中的哪些区域参与其中,存在什么样的机制,随后使用这些知识帮助我们思考,如何在人工智能系统中实现同样的功能。

我们试图理解的另一方面是,智能究竟是什么,这也包括自然智能,人类的智力。因此我认为,可能会出现反向的帮助。利用可以完成有趣任务的人工智能算法,我们可以了解,应该如何看待大脑本身。我们可以使用这些人工智能系统作为模型,了解大脑中正在发生什么。

问:你提到大脑的想象力、预测未来的能力,是改进AI的关键功能。能不能举个例子,说明AI怎么才能拥有这些能力?

哈萨比斯:这些高级的想法目前还在很基础的阶段。先有记忆,然后再有想象。大脑里有不同的存储系统。比方说短期工作记忆,可以用来记住电话号码这种不长的信息。另外还有场景记忆,这是一种长期记忆,甚至你在睡觉的时候都能从中学习经验。

这只是一个想法,不同的记忆存储系统,对AI来说很有价值。传统的神经网络没有太多的记忆,只专注于当时当刻。为了改变这个情况,人类发明了神经图灵机,让神经网络可以连接并使用一个很大的扩展存储器。这是一个神经科学启发的想法。

然后我们来说想象,这是人类和一些动物,对世界的生成模型,这种模型被用来在现实世界行动之前,评估和规划将会发生什么,以及可能产生的后果。

想象力是一个非常强大的规划工具。你需要建立一个世界的模型,然后使用这个模型去预测,还要及时向前推进。所以,当我们开始拆解想象力的构成时,就能获得一些关于构建想象力所需功能的线索。

论文&下载

DeepMind最新发表在《自然神经科学》的这篇论文,去年12月提交,今年8月29日被接受,10月2日正式在线发布。

摘要

海马体的主要功能一直被认为是“认知地图”,即位置细胞对空间几何表示进行了编码。然而,位置细胞中的预测编码、奖励敏感性和策略依赖,表明这里不仅仅解决空间问题。

我们从强化学习的角度来看待这个问题:什么样的空间表示能最大化未来的奖励?我们使用预测表示的形式来给出答案。这种表征捕获了落在传统认知地图之外的许多位置细胞反应。更进一步,我们认为内嗅格点细胞为预测表示进行低维基集编码,用于抑制预测中的噪声并提取分层规划的多尺度结构。

《自然神经科学》的订阅用户,可以前往下面这个网址查看论文:
http://www.nature.com/neuro/journal/vaop/ncurrent/full/nn.4650.html?foxtrotcallback=true

另外,在量子位微信公众号(QbitAI)对话界面,回复“海马体”三个字。就能下载查看这篇论文。

本文作者:维金
原文发布时间:2017-10-03
相关文章
|
机器学习/深度学习 人工智能 算法
“探秘神经算法:如何用人工智能模拟大脑处理信息“
“探秘神经算法:如何用人工智能模拟大脑处理信息“
80 0
|
2月前
|
机器学习/深度学习 人工智能 算法
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
斯坦福大学Percy Liang团队推出VideoAgent,一种能生成高质量视频并自我优化的模型。它结合强化学习和监督学习,根据用户反馈和环境变化自动调整,提升视频生成质量和用户体验,但同时也面临模型不稳定性和高资源需求等挑战。
35 6
|
机器学习/深度学习 数据采集 人工智能
火星探测器背后的人工智能:从原理到实战的强化学习
火星探测器背后的人工智能:从原理到实战的强化学习
135 0
|
机器学习/深度学习 人工智能 算法
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
按照固有思维方式,人们总以为人工智能是一个莫测高深的行业,这个行业的人都是高智商人群,无论是写文章还是和人讲话,总是讳莫如深,接着就是蹦出一些“高级”词汇,什么“神经网络”,什么“卷积神经”之类,教人半懂不懂的。尤其ChatGPT的风靡一时,更加“神话”了这个行业,用鲁迅先生形容诸葛武侯的话来讲:“多智而近妖”。 事实上,根据二八定理,和别的行业一样,人工智能行业内真正顶尖的天才也就是20%,他们具备真正的行业颠覆能力,可以搞出像ChatGPT这种“工业革命”级别的产品,而剩下的80%也不过就是普通人,每天的工作和我们这些人一样,枯燥且乏味,而之所以会出现类似“行业壁垒”的现象,是因为这个行
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
|
机器学习/深度学习 人工智能 决策智能
重新审视AI,神经网络中概念符号涌现的发现与证明(1)
重新审视AI,神经网络中概念符号涌现的发现与证明
122 0
|
机器学习/深度学习 人工智能 自然语言处理
重新审视AI,神经网络中概念符号涌现的发现与证明(2)
重新审视AI,神经网络中概念符号涌现的发现与证明
155 0
|
机器学习/深度学习 人工智能 算法
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
167 0
|
机器学习/深度学习 算法 机器人
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
133 0
|
机器学习/深度学习 人工智能 自动驾驶
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
160 0
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
|
机器学习/深度学习 人工智能
李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则
6亿多年的进化中,动物表现出显著的具身智能,利用进化学习复杂的任务。研究人员称,AI智能体也可以很快学会动物的这种智能行为,但目前推动具身认知面临很多挑战。最近斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破,首次证明了「鲍德温效应」。
744 0
李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则