DeepMind新论文:类脑语言模型——AI达到人类水平语言理解能力的路线图

简介: DeepMind、斯坦福大学、谷歌等的研究团队近日发表论文《将机器语言模型扩展到人类水平的语言理解》,回顾了最近AI在自然语言处理方面的突破,认为机器要达到人类水平的语言理解能力,需要互补的记忆系统和丰富的情境表征。他们描述了向人类水平的语言理解扩展ML模型的路线图。

微信图片_20220107180512.jpg


语言是人类智能的核心。但理解语言意味着什么呢?


DeepMind、斯坦福大学、博世人工智能中心、Google Research以及 LMU Munich的研究团队最近发表论文《将机器语言模型扩展到人类水平的语言理解》(Extending Machine Language Models toward Human-Level Language Understanding),回顾了最近在自然语言处理方面的突破,并提出了有待实现的目标。


研究人员认为,机器要达到人类水平的语言理解能力,需要互补的记忆系统和丰富的情境表征。他们描述了向人类水平语言理解扩展ML模型的路线图。


微信图片_20220107180515.jpg


最近的方法依赖于人工神经网络捕获的关于学习和表示的领域通用原理。然而,当前的大多数模型都过于关注语言本身。对于人类来说,语言是一个用于获取、表示和交流物理世界和社会世界中的对象和情况的更大的系统的一部分,未来的机器语言模型应该模仿这样一个系统


人类语言处理利用了互补的学习系统,包括像机器系统一样逐渐学习的深度神经网络式学习系统,以及支持快速学习新信息的快速学习系统将这样一个系统添加到机器语言模型中,将是迈向真正的类人语言理解的重要一步



人类综合理解系统(IUS)


情境和对象


尽管神经语言建模取得了成功,但存在一大限制,即这些模型完全基于语言。


我们需要这样一个模型,在这个模型中,语言是一个综合理解系统(integrated understanding system,IUS)的一部分,用于理解和交流我们遇到的情境(situations)以及参与其中的对象(objects)


情境表征构成了我们的世界模型,并指导着我们的行为和对语言的解释。事实上,解决一个句子中代词的指称问题可以从构建该句子所描述的情境的表示开始。简而言之,我们认为,语言的进化是为了交流情况,我们的系统应该解决这个问题。


情境可以是具体的和静态的,例如猫在垫子上;也可以是事件,例如男孩在打球。它们可以是概念上的、社会上的或法律上的,例如法院宣布某项法律无效,甚至可以是虚构的。


对象可以是真实的或虚构的物理对象或位置;动物、人、团体或组织;信仰或其他精神状态;或实体,如理论,法律或宪法。本文中我们重点考虑具体的情境,我们的研究建立在语言学、人类认知、人工智能和早期PDP模型的经典著作之上,与认知神经科学的新兴观点相吻合。


人类构建情境表征的证据来自Bransford和他的同事的经典著作(33,38)。这项工作表明:
(1)当我们能将文本中的陈述与熟悉的情境联系起来时,我们就能更好地理解和记忆文本;(2)传达情境的信息可以通过文字附带的图片提供;(3)我们记住的对象的特征取决于它们在文本中所处的情境;(4)我们记忆中的对象没有在文本中明确提及;(5)在听到描述对象之间的空间关系或概念关系的句子后,我们记住的是这些关系,而不是语言输入。


此外,眼动的证据表明,人们在语境中处理语言时,会同时且立即使用语言输入和非语言输入。例如,在听到“The man will drink …”这句话后,参与者看到的是满的葡萄酒杯,而不是空的啤酒杯。而听到“The man drank…”,他们的看到的是空的啤酒杯。


因此,语言理解包括使用视觉输入和语言输入,实时地构建语言输入所描述的情境的表示,包括所涉及的对象及其相互之间的空间关系。


大脑中的理解系统


图4描述了我们提出的综合理解系统。我们所提出的既是关于大脑理解基础的理论,也是未来语言理解研究的架构。


首先,我们关注系统的一部分,被称为新皮层系统(neocortical system),它的作用是将语言和非语言输入结合起来,例如,在听到一个包含“bat”这个词的句子时,它能理解所指的对象和情境,同时观察世界上相应的情境。



微信图片_20220107180518.jpg


这个系统由图中的蓝色椭圆(对应于大脑中的神经元池)和蓝色箭头(这些池之间的连接)组成。蓝色框包含了新皮层系统,每个椭圆形成一个特定信息的嵌入(表示)。蓝色箭头表示已学习的连接,允许嵌入相互约束。红色框包含内侧颞叶系统,被认为提供了一个存储新皮层系统状态完整嵌入的网络。红色箭头表示快速学习连接,这些连接将嵌入的元素绑定在一起,以便以后重新激活和使用。连接红色和蓝色椭圆的绿色箭头支持两个系统之间的双向影响。(A)和(B)是正文中讨论的两个例子。


互补的学习系统


学习在理解中起着至关重要的作用。我们所描述的神经网络中连接权值的知识是通过基于每次经验的非常小的调整积累而获得的。连接权重逐渐变得对微妙的高阶统计关系敏感,随着学习的继续,越来越多地考虑上下文,并表现出对一般信息和重复的特定信息(如亲密朋友和名人的名字)的敏感性。


在我们提出的架构中,这个渐进的过程发生在图4中蓝色箭头所代表的所有路径中,就像它发生在上述人工神经语言模型中一样。然而,这种学习机制不适合快速获取新信息,而试图通过有针对性地重复快速学习特定的新信息,会导致对已知信息的灾难性干扰。


但是,人类通常可以依靠过去任意时间仅呈现一次的信息来告知我们当前的理解。例如,考虑这段话:


John put some beer in a cooler and went out with his friends to play volleyball. Soon after he left, someone took the beer out of the cooler. John and his friends were thirsty after the game, and went back to his place for some beers. When John opened the cooler, he discovered that the beer was ___.



要推测出John再次打开冷藏箱时找不到啤酒,我们必须依靠第一次听说啤酒被偷走了时所获得的信息。


这种情况非常普遍,学习系统必须能够利用这些信息,但是BERT等语言模型在这种方式下是有限的。虽然有些模型将长单词序列保持在活动状态,但当一个文本被替换为另一个文本时,只保留上面描述的较小的连接调整,使这些系统无法访问先前信息的细节。


人类的大脑包含一个能解决这种限制的系统。考虑这样一种情况:某人看到了一个以前不熟悉的物体,并听到了关于它的口头陈述,如图4B所示。视觉输入提供了一个关于该对象(先前不熟悉的动物)的信息源,而语言输入提供了它的名称。在仅仅经历了两次这样的短暂配对之后,人类就表现出了很强的学习能力。这种学习方式依赖于海马体和大脑内侧颞叶(MTL)的邻近区域。虽然MTL在学习和记忆中的作用学界仍在讨论,但形成的一个共识是,MTL对于新记忆的初步形成至关重要,包括对特定事件及其构成对象和情境的记忆, 而一般知识、理解语言的能力以及先前获得的技能不受MTL损害的影响。


关于MTL损伤的研究证据表明,在MTL中存在一个快速学习系统(fast learning system)。根据互补学习系统理论(CLST),该系统(图4中的红色部分)提供了对理解系统状态的完整表示,并在MTL(红色箭头)中使用可快速修改的连接,以支持基于单一经验的新学习。绿色箭头表示新皮层系统(蓝色)和MTL系统(红色)之间携带信息的连接,因此系统可以相互影响。


总结而言,人类的大脑包含了互补的学习系统,当我们试图理解一个经历过的情况时,这些系统支持同时使用许多信息来源。其中一个系统是通过交错学习的方式逐渐形成一个完整的知识体系,包括我们对单词含义、经常遇到的物体的属性、熟悉情况的特征的认识。另一个是对该系统的补充,以允许将来自特定经验的信息用于对当前情况的解释。

迈向人工综合理解系统


我们回顾了当前的深度学习研究,这些研究采取的步骤与我们所提议的IUS相一致,并指出了实现一个真正完整且功能齐全的语言理解系统所需要的未来方向。


我们从建立在具体的视觉和物理环境中的语言环境开始,然后考虑记忆的作用,最后将注意力转向对更抽象的对象、情境和关系的理解上。

将视觉和语言映射到对象的表示


一个模型如何学习世界上可能发生的情况?
长期以来,人们一直在讨论构建一个建立在外部世界基础上的人工语言理解系统的必要性。早期的一个例子是Winograd的SHRDLU系统,它产生并响应了关于模拟物理世界的语言。

深度学习使感知输入和语言的端到端的联合训练成为可能。这些模型的最新进展极大地改善了性能,导致应用程序改变了用户体验。例如,当展示给系统一张照片,系统就可以回答一些问题,比如这个人手上拿着什么?女士的衬衫是什么颜色的?这些模型展示了将视觉和语言信息相结合以理解一类情况的能力。


体现语言理解的模型


如图4所示,除了视觉和语言的综合之外,我们还可以看到许多附加信息源的更充分的综合。每个源都为不同的学习目标提供了基础,并使一个源中突出的信息能够引导另一个源中的学习和推断。其他重要的信息来源包括非语言的声音、触觉和力觉,以及关于个人行为的信息。


尽管有这些令人鼓舞的迹象,但要实现完全的人类水平的泛化仍然是一个重要的挑战。我们建议,结合一个类似MTL的快速学习系统将有助于解决这一问题,即允许新单词链接到相应的对象上,而在其他情况下,仅从单个事件支持使用该单词来指代被指称者。

一个人工的快速学习系统


在综合理解系统的实现中,快速学习系统应该是什么样的呢?可微神经计算机(DNC)中的存储系统是一种可能性。这些系统将过去事件的嵌入存储在插槽(slots)中,这些插槽可以存储综合的系统状态表示,就像我们人类的MTL一样。或者,它们可以存储整个状态的集合,包括视觉、语言、对象和场景表示。


虽然我们不相信大脑对每段记忆都有一个单独的槽位,但模拟它是很有用的(56),在这方面,具有无限容量的人工系统可能会超过人类的能力。


在这样一个系统中,相关信息的检索是如何工作的呢?DNC采用一个类似BERT的查询系统,检索可以基于上下文和项目信息的组合,类似于人类记忆(70)。


研究出这样一个系统的细节是未来一个令人兴奋的研究方向。


结论


语言并不是孤立存在的。大脑中的综合理解系统将语言与物体和情境的表征联系起来,并通过充分利用我们对世界的多感官体验、我们对运动动作的表征以及我们对先前情景的记忆来增强语言理解。


我们认为下一代的语言理解系统应该模仿大脑中的这个系统,并且我们已经勾勒出了这个系统可能采取的一些形式。


当强调对具体情况的理解时,我们认为对更抽象的语言的理解是建立在这一具体基础之上的,并指出未来我们有可能建立一个人工系统来理解远远超出具体、此时此刻这一范围的抽象情况。


总而言之,我们提出,对大脑中的综合理解系统进行建模,将使人工智能更接近于达到人类水平的语言理解和智能。


论文地址:


https://arxiv.org/pdf/1912.05877.pdf

相关文章
|
27天前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
33 4
|
2月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
21 5
|
2月前
|
人工智能 UED
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
24 5
|
3月前
|
人工智能 前端开发 API
基于Web Speech API给AI语言模型加上语音功能,距离MOSS又近了一步
基于Web Speech API给AI语言模型加上语音功能,距离MOSS又近了一步
53 0
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
77 1
|
5月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
61 3
|
5月前
|
人工智能 自然语言处理 数据库
【AI 生成式】大语言模型(LLM)有哪些典型的应用场景?
【5月更文挑战第5天】【AI 生成式】大语言模型(LLM)有哪些典型的应用场景?
|
5月前
|
机器学习/深度学习 人工智能 算法
AI大咖说-如何有效的读论文
# AI大咖李沐教你高效读论文 李沐,亚马逊资深首席科学家,MXNet框架作者,推荐其在B站的“跟李沐学AI”。他建议读论文分三步:粗读(标题、摘要、结论)、快速浏览(整体理解)和精读(深入细节)。通过这三遍阅读,判断论文是否相关,理解解决问题的方法和实验。5月更文挑战第13天
64 0
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
33 9
|
2天前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
93 65

热门文章

最新文章

下一篇
无影云桌面