DeepMind新论文:类脑语言模型——AI达到人类水平语言理解能力的路线图

简介: DeepMind、斯坦福大学、谷歌等的研究团队近日发表论文《将机器语言模型扩展到人类水平的语言理解》,回顾了最近AI在自然语言处理方面的突破,认为机器要达到人类水平的语言理解能力,需要互补的记忆系统和丰富的情境表征。他们描述了向人类水平的语言理解扩展ML模型的路线图。

微信图片_20220107180512.jpg


语言是人类智能的核心。但理解语言意味着什么呢?


DeepMind、斯坦福大学、博世人工智能中心、Google Research以及 LMU Munich的研究团队最近发表论文《将机器语言模型扩展到人类水平的语言理解》(Extending Machine Language Models toward Human-Level Language Understanding),回顾了最近在自然语言处理方面的突破,并提出了有待实现的目标。


研究人员认为,机器要达到人类水平的语言理解能力,需要互补的记忆系统和丰富的情境表征。他们描述了向人类水平语言理解扩展ML模型的路线图。


微信图片_20220107180515.jpg


最近的方法依赖于人工神经网络捕获的关于学习和表示的领域通用原理。然而,当前的大多数模型都过于关注语言本身。对于人类来说,语言是一个用于获取、表示和交流物理世界和社会世界中的对象和情况的更大的系统的一部分,未来的机器语言模型应该模仿这样一个系统


人类语言处理利用了互补的学习系统,包括像机器系统一样逐渐学习的深度神经网络式学习系统,以及支持快速学习新信息的快速学习系统将这样一个系统添加到机器语言模型中,将是迈向真正的类人语言理解的重要一步



人类综合理解系统(IUS)


情境和对象


尽管神经语言建模取得了成功,但存在一大限制,即这些模型完全基于语言。


我们需要这样一个模型,在这个模型中,语言是一个综合理解系统(integrated understanding system,IUS)的一部分,用于理解和交流我们遇到的情境(situations)以及参与其中的对象(objects)


情境表征构成了我们的世界模型,并指导着我们的行为和对语言的解释。事实上,解决一个句子中代词的指称问题可以从构建该句子所描述的情境的表示开始。简而言之,我们认为,语言的进化是为了交流情况,我们的系统应该解决这个问题。


情境可以是具体的和静态的,例如猫在垫子上;也可以是事件,例如男孩在打球。它们可以是概念上的、社会上的或法律上的,例如法院宣布某项法律无效,甚至可以是虚构的。


对象可以是真实的或虚构的物理对象或位置;动物、人、团体或组织;信仰或其他精神状态;或实体,如理论,法律或宪法。本文中我们重点考虑具体的情境,我们的研究建立在语言学、人类认知、人工智能和早期PDP模型的经典著作之上,与认知神经科学的新兴观点相吻合。


人类构建情境表征的证据来自Bransford和他的同事的经典著作(33,38)。这项工作表明:
(1)当我们能将文本中的陈述与熟悉的情境联系起来时,我们就能更好地理解和记忆文本;(2)传达情境的信息可以通过文字附带的图片提供;(3)我们记住的对象的特征取决于它们在文本中所处的情境;(4)我们记忆中的对象没有在文本中明确提及;(5)在听到描述对象之间的空间关系或概念关系的句子后,我们记住的是这些关系,而不是语言输入。


此外,眼动的证据表明,人们在语境中处理语言时,会同时且立即使用语言输入和非语言输入。例如,在听到“The man will drink …”这句话后,参与者看到的是满的葡萄酒杯,而不是空的啤酒杯。而听到“The man drank…”,他们的看到的是空的啤酒杯。


因此,语言理解包括使用视觉输入和语言输入,实时地构建语言输入所描述的情境的表示,包括所涉及的对象及其相互之间的空间关系。


大脑中的理解系统


图4描述了我们提出的综合理解系统。我们所提出的既是关于大脑理解基础的理论,也是未来语言理解研究的架构。


首先,我们关注系统的一部分,被称为新皮层系统(neocortical system),它的作用是将语言和非语言输入结合起来,例如,在听到一个包含“bat”这个词的句子时,它能理解所指的对象和情境,同时观察世界上相应的情境。



微信图片_20220107180518.jpg


这个系统由图中的蓝色椭圆(对应于大脑中的神经元池)和蓝色箭头(这些池之间的连接)组成。蓝色框包含了新皮层系统,每个椭圆形成一个特定信息的嵌入(表示)。蓝色箭头表示已学习的连接,允许嵌入相互约束。红色框包含内侧颞叶系统,被认为提供了一个存储新皮层系统状态完整嵌入的网络。红色箭头表示快速学习连接,这些连接将嵌入的元素绑定在一起,以便以后重新激活和使用。连接红色和蓝色椭圆的绿色箭头支持两个系统之间的双向影响。(A)和(B)是正文中讨论的两个例子。


互补的学习系统


学习在理解中起着至关重要的作用。我们所描述的神经网络中连接权值的知识是通过基于每次经验的非常小的调整积累而获得的。连接权重逐渐变得对微妙的高阶统计关系敏感,随着学习的继续,越来越多地考虑上下文,并表现出对一般信息和重复的特定信息(如亲密朋友和名人的名字)的敏感性。


在我们提出的架构中,这个渐进的过程发生在图4中蓝色箭头所代表的所有路径中,就像它发生在上述人工神经语言模型中一样。然而,这种学习机制不适合快速获取新信息,而试图通过有针对性地重复快速学习特定的新信息,会导致对已知信息的灾难性干扰。


但是,人类通常可以依靠过去任意时间仅呈现一次的信息来告知我们当前的理解。例如,考虑这段话:


John put some beer in a cooler and went out with his friends to play volleyball. Soon after he left, someone took the beer out of the cooler. John and his friends were thirsty after the game, and went back to his place for some beers. When John opened the cooler, he discovered that the beer was ___.



要推测出John再次打开冷藏箱时找不到啤酒,我们必须依靠第一次听说啤酒被偷走了时所获得的信息。


这种情况非常普遍,学习系统必须能够利用这些信息,但是BERT等语言模型在这种方式下是有限的。虽然有些模型将长单词序列保持在活动状态,但当一个文本被替换为另一个文本时,只保留上面描述的较小的连接调整,使这些系统无法访问先前信息的细节。


人类的大脑包含一个能解决这种限制的系统。考虑这样一种情况:某人看到了一个以前不熟悉的物体,并听到了关于它的口头陈述,如图4B所示。视觉输入提供了一个关于该对象(先前不熟悉的动物)的信息源,而语言输入提供了它的名称。在仅仅经历了两次这样的短暂配对之后,人类就表现出了很强的学习能力。这种学习方式依赖于海马体和大脑内侧颞叶(MTL)的邻近区域。虽然MTL在学习和记忆中的作用学界仍在讨论,但形成的一个共识是,MTL对于新记忆的初步形成至关重要,包括对特定事件及其构成对象和情境的记忆, 而一般知识、理解语言的能力以及先前获得的技能不受MTL损害的影响。


关于MTL损伤的研究证据表明,在MTL中存在一个快速学习系统(fast learning system)。根据互补学习系统理论(CLST),该系统(图4中的红色部分)提供了对理解系统状态的完整表示,并在MTL(红色箭头)中使用可快速修改的连接,以支持基于单一经验的新学习。绿色箭头表示新皮层系统(蓝色)和MTL系统(红色)之间携带信息的连接,因此系统可以相互影响。


总结而言,人类的大脑包含了互补的学习系统,当我们试图理解一个经历过的情况时,这些系统支持同时使用许多信息来源。其中一个系统是通过交错学习的方式逐渐形成一个完整的知识体系,包括我们对单词含义、经常遇到的物体的属性、熟悉情况的特征的认识。另一个是对该系统的补充,以允许将来自特定经验的信息用于对当前情况的解释。

迈向人工综合理解系统


我们回顾了当前的深度学习研究,这些研究采取的步骤与我们所提议的IUS相一致,并指出了实现一个真正完整且功能齐全的语言理解系统所需要的未来方向。


我们从建立在具体的视觉和物理环境中的语言环境开始,然后考虑记忆的作用,最后将注意力转向对更抽象的对象、情境和关系的理解上。

将视觉和语言映射到对象的表示


一个模型如何学习世界上可能发生的情况?
长期以来,人们一直在讨论构建一个建立在外部世界基础上的人工语言理解系统的必要性。早期的一个例子是Winograd的SHRDLU系统,它产生并响应了关于模拟物理世界的语言。

深度学习使感知输入和语言的端到端的联合训练成为可能。这些模型的最新进展极大地改善了性能,导致应用程序改变了用户体验。例如,当展示给系统一张照片,系统就可以回答一些问题,比如这个人手上拿着什么?女士的衬衫是什么颜色的?这些模型展示了将视觉和语言信息相结合以理解一类情况的能力。


体现语言理解的模型


如图4所示,除了视觉和语言的综合之外,我们还可以看到许多附加信息源的更充分的综合。每个源都为不同的学习目标提供了基础,并使一个源中突出的信息能够引导另一个源中的学习和推断。其他重要的信息来源包括非语言的声音、触觉和力觉,以及关于个人行为的信息。


尽管有这些令人鼓舞的迹象,但要实现完全的人类水平的泛化仍然是一个重要的挑战。我们建议,结合一个类似MTL的快速学习系统将有助于解决这一问题,即允许新单词链接到相应的对象上,而在其他情况下,仅从单个事件支持使用该单词来指代被指称者。

一个人工的快速学习系统


在综合理解系统的实现中,快速学习系统应该是什么样的呢?可微神经计算机(DNC)中的存储系统是一种可能性。这些系统将过去事件的嵌入存储在插槽(slots)中,这些插槽可以存储综合的系统状态表示,就像我们人类的MTL一样。或者,它们可以存储整个状态的集合,包括视觉、语言、对象和场景表示。


虽然我们不相信大脑对每段记忆都有一个单独的槽位,但模拟它是很有用的(56),在这方面,具有无限容量的人工系统可能会超过人类的能力。


在这样一个系统中,相关信息的检索是如何工作的呢?DNC采用一个类似BERT的查询系统,检索可以基于上下文和项目信息的组合,类似于人类记忆(70)。


研究出这样一个系统的细节是未来一个令人兴奋的研究方向。


结论


语言并不是孤立存在的。大脑中的综合理解系统将语言与物体和情境的表征联系起来,并通过充分利用我们对世界的多感官体验、我们对运动动作的表征以及我们对先前情景的记忆来增强语言理解。


我们认为下一代的语言理解系统应该模仿大脑中的这个系统,并且我们已经勾勒出了这个系统可能采取的一些形式。


当强调对具体情况的理解时,我们认为对更抽象的语言的理解是建立在这一具体基础之上的,并指出未来我们有可能建立一个人工系统来理解远远超出具体、此时此刻这一范围的抽象情况。


总而言之,我们提出,对大脑中的综合理解系统进行建模,将使人工智能更接近于达到人类水平的语言理解和智能。


论文地址:


https://arxiv.org/pdf/1912.05877.pdf

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
138 2
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
54 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
13天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
95 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
20天前
|
人工智能 Ubuntu 语音技术
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。
50 3
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
|
17天前
|
人工智能 JSON 自然语言处理
智能化AI工具-语言翻译与本地化
在全球化发展的背景下,语言翻译与本地化需求日益增长。无论是跨境电商、国际合作,还是本地化应用开发,都需要高效、准确的翻译解决方案。阿里云通义千问作为一款强大的大语言模型,不仅具备出色的自然语言理解能力,还能够在多语言翻译和本地化场景中发挥重要作用。本博客将详细介绍如何基于阿里云通义千问开发语言翻译与本地化工具,包括产品介绍、程序代码以及阿里云相关产品的具体使用流程。
51 10
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言。本文探讨了深度学习在NLP中的应用,包括其基本任务、优势、常见模型及具体案例,如文本分类、情感分析等,并讨论了Python的相关工具和库,以及面临的挑战和未来趋势。
51 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
54 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
78 7
|
3月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
62 4
|
4月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
33 5