DeepMind在神经科学和人工智能结合的探索上又有新进展。
海马体“预测地图”
有没有想过这些问题:你是如何选择的上班路线,你是如何决定搬家去哪里,下棋的时候你是怎么决定走出那一步?
所有这些场景中,其实都存在一个估计:你的决策在未来能获得多大的回报。
这很微妙,你考虑的未来越远,可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题,而在人工智能研究中,开发能有效预测未来回报的系统也是个关注重点。
在《自然神经科学》(Nature Neuroscience)上新发布的论文中,DeepMind将神经科学知识应用于机器学习中的数学理论,从而带来关于学习和记忆本质的新见解。
具体来说,DeepMind认为,大脑中的一块区域,即海马体,对这个问题提供了独特的解决方案。海马体运用被DeepMind称作“预测地图”的机制来高度总结未来的事件。
传统观点认为,海马体只反映动物当前的状态,尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持,因为在啮齿动物的海马体中发现了“位置细胞”:当动物处于特定位置时,这些细胞将会被激活。
(量子位注:2014年诺贝尔生理或医学奖,被授予了美英双国籍的神经生物学家John O’Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇,以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元,这些神经元构成了一个精巧的定位系统,使人们能够认知自己在空间中所处的位置,并帮助人们进行导航。)
尽管这种理论可以解释许多神经生理学发现,但无法完全解释,为何海马体也参与了其他功能,例如记忆、关系推理和决策。
DeepMind的新理论认为,在计算未来最大回报的过程中,思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。
DeepMind的关键思路是,为了估计未来回报,人工智能agent(智能体)必须首先估计,在每种状态下预计能获得多少立即回报,随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报,agent可以得出对未来回报的估计。
类似的,DeepMind认为海马体代表了全部状态,即海马体预测到的未来所有状态。
例如,如果你即将下班(即当前状态),那么海马体会做出这样的预测:你很快就会动身,前往学校接孩子,最后回到距离更远的家中。
通过判断每个当前状态与预期后续状态的关系,海马体可以对未来事件做出高度的总结,这种行为的学名是“后续表现”。DeepMind认为,这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境,同时不必对未来展开计算开销极高的模拟。
这种思路结合了两种算法的优势。这两种算法已在强化学习的研究中很知名,同时也被认为存在于人类和啮齿动物的大脑中。“基于模型”的算法能学习环境模型,随后通过模拟得出对未来回报的估计。“无模型”算法则直接从环境经验中得出对未来回报的估计。基于模型的算法很灵活,但有着很大的计算开销。无模型算法计算开销较小,但不太灵活。
DeepMind理论中的算法结合了基于模型算法的灵活性,以及无模型算法的计算效率。由于计算过程是简单的加权求和,因此计算过程非常高效,类似于无模型算法。与此同时,通过区分回报预期和状态预期(即预测地图),算法可以在维持状态预期不变的情况下刷新回报预期,从而快速适应回报的改变。
DeepMind计划在未来工作中进一步检验这种理论。由于预测地图理论可以被转换为多种神经网络架构,因此DeepMind希望探索这种学习策略如何推动灵活快速的规划。
在更普遍的意义上,未来的一项主要任务是研究大脑如何整合不同类型的学习方式。尽管DeepMind用这个模型去替代大脑中基于模型和无模型的学习方式,但更贴近现实的情况是,在学习和规划过程中,大脑同时展开了多种类型的学习。
理解这些学习算法如何配合运转是理解人类和动物大脑的重要一步,也将指导DeepMind设计复杂、多面的人工智能。
只有了解大脑,才能开发出更强的AI
因为创造出AlphaGo而名满天下的DeepMind,一直在思考人工智能如何达到下个高度。
在DeepMind创始人哈萨比斯看来,答案就在于人类中间,或者说人类的身体中。他一直认为,人工智能需要与神经科学重新建立联系。只有更多地了解自然智能,我们才能真正理解(并开发出)人工智能。
下面这段,摘自自哈萨比斯7月的一次访谈。
问:你以往曾讨论过,DeepMind最大的目标之一是开发人工智能,促进更多的科学发现,使其成为提高人类创造力的工具。神经科学如何帮助你达到这个目标?
哈萨比斯:实际上有两种方式。其中之一是将神经科学作为算法和架构理念的灵感来源。关于开发通用智能的可行性,人类大脑是唯一现存的证明。因此我们认为,有必要付诸努力,尝试并理解这些能力是如何形成的。随后我们可以看看,是否有些办法,将其转移至机器学习和人工智能。
这也是我在博士阶段研究神经科学的原因:关注大脑的记忆和想象力,理解大脑中的哪些区域参与其中,存在什么样的机制,随后使用这些知识帮助我们思考,如何在人工智能系统中实现同样的功能。
我们试图理解的另一方面是,智能究竟是什么,这也包括自然智能,人类的智力。因此我认为,可能会出现反向的帮助。利用可以完成有趣任务的人工智能算法,我们可以了解,应该如何看待大脑本身。我们可以使用这些人工智能系统作为模型,了解大脑中正在发生什么。
问:你提到大脑的想象力、预测未来的能力,是改进AI的关键功能。能不能举个例子,说明AI怎么才能拥有这些能力?
哈萨比斯:这些高级的想法目前还在很基础的阶段。先有记忆,然后再有想象。大脑里有不同的存储系统。比方说短期工作记忆,可以用来记住电话号码这种不长的信息。另外还有场景记忆,这是一种长期记忆,甚至你在睡觉的时候都能从中学习经验。
这只是一个想法,不同的记忆存储系统,对AI来说很有价值。传统的神经网络没有太多的记忆,只专注于当时当刻。为了改变这个情况,人类发明了神经图灵机,让神经网络可以连接并使用一个很大的扩展存储器。这是一个神经科学启发的想法。
然后我们来说想象,这是人类和一些动物,对世界的生成模型,这种模型被用来在现实世界行动之前,评估和规划将会发生什么,以及可能产生的后果。
想象力是一个非常强大的规划工具。你需要建立一个世界的模型,然后使用这个模型去预测,还要及时向前推进。所以,当我们开始拆解想象力的构成时,就能获得一些关于构建想象力所需功能的线索。
论文&下载
DeepMind最新发表在《自然神经科学》的这篇论文,去年12月提交,今年8月29日被接受,10月2日正式在线发布。
摘要
海马体的主要功能一直被认为是“认知地图”,即位置细胞对空间几何表示进行了编码。然而,位置细胞中的预测编码、奖励敏感性和策略依赖,表明这里不仅仅解决空间问题。
我们从强化学习的角度来看待这个问题:什么样的空间表示能最大化未来的奖励?我们使用预测表示的形式来给出答案。这种表征捕获了落在传统认知地图之外的许多位置细胞反应。更进一步,我们认为内嗅格点细胞为预测表示进行低维基集编码,用于抑制预测中的噪声并提取分层规划的多尺度结构。
《自然神经科学》的订阅用户,可以前往下面这个网址查看论文:
http://www.nature.com/neuro/journal/vaop/ncurrent/full/nn.4650.html?foxtrotcallback=true
另外,在量子位微信公众号(QbitAI)对话界面,回复“海马体”三个字。就能下载查看这篇论文。
— 完 —