今天给大家介绍DeepMind人工智能研究团队负责人Matthew Botvinick在Neuron上发表的文章“Deep Reinforcement Learning and Its Neuroscientific Implications”。作者在文章中提供了深度强化学习(RL)的高层次介绍,讨论了深度RL在神经科学中的应用,并调查了它对大脑和行为研究的更广泛的影响。
1
研究背景
机器学习和人工智能的进展为深度学习提供了更强大的计算功能,允许人们将有监督的深度学习扩展到更有多的数据集和任务中,这恢复了人们对深度学习的兴趣。在最近几年,人们利用深度学习对视觉、导航和认知控制等大脑功能进行建模,然而人们对人工智能研究中更新颖的发展方向——深度RL的关注较少,深度RL将深度学习与已经对神经科学研究产生了重大影响RL计算框架结合在一起,但是这种结合也带来了各种在深度学习或RL中都不会出现的计算问题,其中许多以有趣的方式与大脑功能的关键方面建立了联系,为神经科学研究提供了一系列迄今为止很少探索的机会,该综述旨在呼吁人们给予对神经科学有重要意义的深度强化学习更多的关注。
2
深度强化学习
RL问题的解决方案的基础都是如何表示环境状态,为了实现表示的跨状态泛化,人们使用函数逼近。由于RL产生智能、类人行为所需的是某种形式的非线性函数逼近,RL研究致力于寻找可行的非线性函数逼近方法,希望使用深层神经网络执行自适应非线性函数逼近。RL的结构如图1A所示。
“深度学习”是指在深度神经网络中调整连接权值以建立所需的输入输出映射的问题,最有效和最广泛使用的是解决方法是反向传播,深度学习的结构如图1B所示。直到最近,反向传播才几乎只用于有监督学习或无监督学习,但RL不同于大多数传统的有监督和无监督学习问题,RL的目标行为或输出涉及多步决策过程而不是单个输入-输出映射问题,所以将深度学习应用于RL一直是一个难以处理的问题。
深度RL通常使用深度神经网络来计算从感知输入到动作值或动作概率的非线性映射,以及通过反向传播来更新该网络权重的RL信号。深度RL结构如图1C所示,经典的TD-Gammon系统将神经网络与RL结合在一起,学习如何与顶级人类玩家竞争性地玩步步高,但其方法在其他领域却产生了结果却不够好,主要问题是不稳定。后来Deep Q Network(DQN)的出现使得深度RL的工作以惊人的速度发展和扩展。下文将更详细地回顾其中的一些进展,讨论深度RL对神经科学可能产生的影响。
图1 RL、深度学习和深度RL结构
3
深度RL与神经科学
深度神经网络已被证明是一种出色的神经表示模型,然而它大多采用了监督训练,这对理解动机、目标导向行为的大图景问题几乎没有直接的影响;另外,RL为学习和决策的神经机制提供了强有力的理论,但RL本身在思考表示问题方面很少为神经科学提供指导。深度RL通过展示RL和深度学习如何融合在一起,为神经科学提供了新的东西。深度学习着重于如何学习表示法,而RL着重于理解奖励如何指导学习,当深度学习和RL集成在一起时,产生一些新的计算现象。综合框架的新方面又可转化为神经科学的解释原则、假设和可用模型。下一部分将探讨一些迄今为止已经利用深层RL进行的神经科学研究,然后再转向考虑深度RL为神经科学研究提出的一些更广泛的问题。
4
先进研究
目前很少有研究将深度RL模型直接应用于神经科学数据。在少数情况下,研究人员以类似于监督深度学习和RL先前应用程序的方式部署了深度RL。Banino等人的工作结合了有监督的深度学习和深度RL方法,以展示类似于在内嗅皮层中看到的网格状表示如何增强目标导向的导航性能。最近的研究集中在新兴神经科学意义上,Wang等人研究了循环深度RL系统的行为,并描述了一种新颖的meta-RL效果,展示了这种meta-RL效应如何可用于解释多巴胺和前额叶皮层功能的神经科学研究中广泛的令人费解的发现。Dabney等人利用了分布式RL进行了此类研究,将RPE扩展为向量,这种修改可以显着提高RL在各种任务中的速度和结果,并且在深层RL中观察到某些在线性RL等简单形式中观察不到的东西。
5
下一步研究的主题
这节将概述深度RL可能为神经科学研究提供影响的六个领域,帮助研究人员了解未来的主要机遇是什么。
5.1 表示学习
表示问题是神经科学的中心问题,深度RL提供了通过奖励方式和任务需求来塑造表示的模型。深度RL系统的出现让人们意识到RL塑造的表示形式的两个严重缺陷:(1)与任务相关的奖励通常很少;(2)第二个问题是过拟合。为了解决这些问题,实践中通常会在无监督学习或自监督学习的基础上补充深度RL,这种方式产生的表示形式有可能支持转移到其他任务,这与现有的神经科学工作相一致。深度RL中的另一个问题涉及归纳偏差在塑造表示学习中的作用,最近开发的体系结构在将视觉输入表示为包括具有重复成对关系的离散对象集时引入偏差。这些想法让人们意识到通过将环境分解为对象来更有效地探索和学习的可能性。
5.2 基于模型的RL
RL算法的一种重要分类是“无模型”算法和“基于模型”算法,有影响力的研究重点在于两种学习形式如何相互取舍。Deep RL为无模型与基于模型的RL之间的关系开辟了一个新的优势,在神经科学和心理学中已经研究了两种系统之间的相关相互作用。在某些情况下,类似于基于模型的RL的过程可能会在使用无模型RL算法训练的系统中自发出现,在基于RL的系统中也看到了基于模型的行为,这一点值得进一步研究。
5.3 记忆
记忆是神经科学中最重要的话题之一,深度RL提供了一种计算环境,在其中可以研究记忆如何支持基于奖励的学习和决策,这是神经科学领域日益引起人们关注的主题。为模拟人类大脑的不均匀重播,人们尝试将非均匀性作为强化学习的一种方式。另外,大脑中的记忆维护和检索也用于在线决策,在深度RL中,两种记忆系统具有此功能:(1)episodic读写长期存储插槽,允许相对容易地分析每个时间步长存储和检索的信息,从而与神经数据进行比较;(2)循环神经网络以类似于神经科学中称为工作记忆维护的方式,在激活中存储信息。其它记忆机制包括对记忆中的信息进行注意力和关系处理的系统以及结合并协调工作和情节性记忆的系统,这属于深度RL和神经科学之间的交流中最可行和最有前途的主题领域之一。
5.4 探索
探索是将RL与其他标准学习问题区分开的特征之一。RL要求有必要主动寻求信息,测试新的行为并将其与已建立的知识进行平衡,以协商探索与利用之间的权衡,在此,深度RL提供了新的计算视角和一组特定的算法思想。由于深层RL通常处理高维感知观察,很少会出现完全相同的观察,因此,出现了如何量化新颖性的问题,并且提出了一系列创新技术来解决该问题。有的研究工作允许代理根据任务经验学习或发展自己的内在动机。Meta-RL为探索提供了另一个有趣而新颖的观点,它的结构可以适应系统所训练的各种问题,因此探索非常有效。最后,深层RL的一些研究提出通过在分层行为空间中随机采样来解决探索问题,这引起了一种有向、时间扩展和随机探索的形式,与动物觅食模型有着紧密联系。
5.5认知控制和行为层次
认知神经科学很早就提出了一系列功能,统称为“认知控制”。随着深度RL研究的发展,人们已经开始解决在多个任务或技能之间获得能力和转换的问题,并开发了许多与认知控制的神经科学模型有关的计算技术。另外,深度RL研究以多种方式采用了分层方案,低级系统可以自主运行,而上级系统只能以构成RL目标一部分的损失进行干预,这种安排与神经科学理念相呼应,自上而下控制低水平习惯的概念也已应用于运动控制任务和与经典神经科学模型进行分层控制产生共鸣的体系结构中。
5.6 社会认知
神经科学研究的一个新兴领域正在研究社会认知的神经基础。在过去的两年中,深度RL进入了这个领域,开发了在多主体场景中并行训练多个主体的方法。行为科学对这种情况进行了长期的研究,而多智能体深度学习RL在这一研究领域提供了新的计算杠杆作用,包括了他人心理模型或“心理理论”的神经机制。
6
挑战与注意事项
深度RL是一个活跃的新领域,并且动物和人类行为的许多方面尚未被成功捕获,从神经科学的角度来看,这些局限性确实指向了神经科学促进使AI研究。
深度RL中学习存在以下几个问题:(1)缓慢性,即对大量数据的需求。深度RL系统尚未被证明能够根据结构化推论灵活地适应人类并利用强大的背景知识,它能否弥补这一差距是一个开放问题。(2)学习如何发生的更多细节。对于深度RL系统而言这仍然是一个挑战,在这一领域与神经科学进行对话可能对两个领域都有利。(3)深度RL研究中普遍使用的学习算法是反向传播,存在着关于如何在生物神经系统中实施反向传播的问题,在面对新学习的情况下,与保持旧学习结果相关的反向传播存在固有的困难,在某些情况下神经科学启发新的研究。
深度RL研究与神经科学具有一致性,也存在一些失配的方面。在深度RL研究中使用的许多技术从根本上不同于可以在生物系统中合理实施的任何技术。同时,在神经科学中很重要的许多问题并没有在面向AI的深度RL研究中作为自然问题出现。在确定神经科学与当代深度RL研究之间进行交流的潜力时,也需要意识到潜在的差异来源。
7
总结
人工智能的最新发展为神经科学提供了许多新机会,其中深度RL对神经科学具有特别丰富的意义,但其中大多数尚未得到深入探讨。深度RL提供了一个基于代理的框架,用于研究奖励塑造表示的方式,以及表示又如何塑造学习和决策的能力,这两个问题共同构成了神经科学最核心的内容。人们可以通过深度RL研究增加对神经科学的投入,另外,神经科学研究也有机会影响深度RL。