大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(1)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写

为什么仿佛一夜之间,自然语言处理(NLP)领域就突然突飞猛进,摸到了通用人工智能的门槛?如今的大语言模型(LLM)发展到了什么程度?未来短时间内,AGI 的发展路线又将如何?


自 20 世纪 50 年代图灵测试提出以来,人们始终在探索机器处理语言智能的能力。语言本质上是一个错综复杂的人类表达系统,受到语法规则的约束。因此,开发能够理解和精通语言的强大 AI 算法面临着巨大挑战。过去二十年,语言建模方法被广泛用于语言理解和生成,包括统计语言模型和神经语言模型。

近些年,研究人员通过在大规模语料库上预训练 Transformer 模型产生了预训练语言模型(PLMs),并在解决各类 NLP 任务上展现出了强大的能力。并且研究人员发现模型缩放可以带来性能提升,因此他们通过将模型规模增大进一步研究缩放的效果。有趣的是,当参数规模超过一定水平时,这个更大的语言模型实现了显著的性能提升,并出现了小模型中不存在的能力,比如上下文学习。为了区别于 PLM,这类模型被称为大型语言模型(LLMs)。

从 2019 年的谷歌 T5 到 OpenAI GPT 系列,参数量爆炸的大模型不断涌现。可以说,LLMs 的研究在学界和业界都得到了很大的推进,尤其去年 11 月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。LLMs 的技术进展对整个 AI 社区产生了重要影响,并将彻底改变人们开发和使用 AI 算法的方式。

考虑到 LLMs 的快速技术进步,中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展,尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源,讨论了未来发展方向等问题。对于领域内研究人员和工程师而言,这份综述是一份极其有用的学习资源。


论文链接:https://arxiv.org/abs/2303.18223
在进入正文前,我们先来看 2019 年以来出现的各种大语言模型(百亿参数以上)时间轴,其中标黄的大模型已开源。

LLMs 概览
在第一节中,研究者详细介绍了 LLMs 的背景、能力和关键技术。

LLMs 的背景

通常,大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具体来说,LLM 建立在 Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。现有的 LLM 主要采用与小语言模型类似的模型架构(即 Transformer)和预训练目标(即语言建模)。作为主要区别,LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。

LLMs 的涌现能力

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」,这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时,它还引入了一个显著的特征:当规模达到一定水平时,性能显著高于随机的状态。以此类推,这种新模式与物理学中的相变现象密切相关。原则上,这种能力也可以与一些复杂的任务有关,而人们更关心可以应用于解决多个任务的通用能力。这里简要介绍了 LLM 的三种代表性的涌现能力:

上下文学习。GPT-3 正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述,它可以通过完成输入文本的词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。

指令遵循。通过对自然语言描述(即指令)格式化的多任务数据集的混合进行微调,LLM 在微小的任务上表现良好,这些任务也以指令的形式所描述。这种能力下,指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以大大提高泛化能力。

循序渐进的推理。对于小语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学学科单词问题。同时,通过思维链推理策略,LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。据推测,这种能力可能是通过代码训练获得的。

关键技术
接下来来看 LLMs 的关键技术,包括了缩放、训练、能力激发、对齐调优、工具利用等。

缩放。缩放是增加 LLMs 模型容量的关键因素,最开始 GPT-3 将模型参数增至 1750 亿,随后 PaLM 进一步将模型参数增至 5400 亿。大规模参数对于涌现能力至关重要。缩放不仅针对模型大小,还与数据大小和总计算量有关。

训练。由于规模巨大,成功训练一个具备强大能力的 LLMs 非常具有挑战性。因此需要分布式训练算法来学习 LLMs 的网络参数,经常联合使用各种并行策略。为了支持分布式训练,DeepSpeed 和 Megatron-LM 等优化框架被用来促进并行算法的实现和部署。此外,优化技巧对训练稳定性和模型性能也很重要,例如重新启动训练损失尖峰和混合精度训练。最近的 GPT-4 开发了特殊的基础设施和优化方法,从而利用小得多的模型来预测大模型的性能。

能力激发。在大规模语料库上经过预训练后,LLMs 被赋予了解决一般任务的潜在能力。然而当 LLMs 执行某个特定任务时,这些能力可能不会显式地表现出来。因此设计适合的任务指令或特定的上下文策略来激发这些能力非常有用,比如思维链 prompt 有助于通过中间推理步骤等解决复杂推理任务。此外还可以进一步对具有自然语言任务描述的 LLMs 进行指令调优,以提高对未见过任务的泛化能力。

对齐调优。由于 LLMs 被训练用来捕获预训练语料库的数据特征(包括高质量和低质量的数据),它们很可能生成对有毒、有偏见和有害的文本内容。为了使 LLMs 与人类价值观保持一致,InstructGPT 设计了一种利用强化学习和人类反馈的高效调优方法,使得 LLMs 能够遵循预期指令。ChatGPT 是在类似 InstructGPT 的技术上开发的,在产生高质量、无害的响应方面表现出了强大的对齐能力。

工具利用。LLMs 本质上是基于大规模纯文本语料库训练的文本生成器,因此在数值计算等文本表达不佳的任务上表现没那么好。此外 LLMs 的能力受限于预训练数据,无法捕获最新信息。针对这些问题,人们提出使用外部工具来弥补 LLMs 的不足,比如可以利用计算器进行精确计算,使用搜索引擎检索未知信息。ChatGPT 更是利用外部插件来联网学习新知识,这种机制可以广泛扩展 LLMs 的能力范围。

LLMs 资源

考虑到具有挑战性的技术问题和巨大的计算资源需求,开发或复制 LLMs 绝不是一件容易的事情。一个可行的方法是从现有的 LLMs 中学习经验,并重新使用公开的资源来进行渐进式的开发或实验研究。
在第三节中,研究者主要总结了开源的模型检查点或 API、可用的语料库以及对 LLM 有用的库。下表 1 为近年来百亿参数以上大模型的统计数据。


下表 2 列出了常用的数据源。


预训练

预训练建立了 LLMs 的能力基础。通过对大规模语料库的预训练,LLMs 可以获得基本的语言理解和生成技能。在这个过程中,预训练语料库的规模和质量是 LLMs 获得强大能力的关键。此外,为了有效地预训练 LLMs,模型架构、加速方法和优化技术都需要精心设计。在第四节中,研究者首先在第 4.1 节讨论了数据的收集和处理,然后在第 4.2 节介绍了常用的模型架构,最后在第 4.3 节介绍了稳定和有效优化 LLMs 的训练技术。

数据收集

要开发一个强大的 LLM,从各种数据源中收集大量的自然语言语料至关重要。现有 LLMs 主要利用各种公共文本数据集作为预训练语料库。下图 2 列出了现有 LLMs 的预训练数据源分布。


收集大量文本数据后,必须对它们进行预训练以构建预训练语料库,包括去噪、去冗余、去除不相关和潜在有毒的数据。下图 3 展示了为 LLMs 预训练数据的预处理 pipeline。


架构

在本节中,研究者回顾了 LLMs 的架构设计,即主流架构,预训练目标和细节配置。下表 3 列出了几个具有代表性的 LLMs 的模型卡片以及公开的详细信息。


由于出色的并行化性和容量,Transformer 架构已成为开发各种 LLM 的 backbone,使得将语言模型扩展到数千亿个参数成为可能。一般来说,现有 LLMs 的主流架构大致可以分为三大类,即编码器 - 解码器、临时解码器和前缀解码器。

自 Transformer 出现以来,各种改进被相继提出以提高其训练稳定性,性能和计算效率。在这一部分中,研究者讨论了 Transformer 四个主要部分的相应配置,包括归一化、位置编码、激活函数、注意力机制和偏置。

预训练起着十分关键的作用,它将一般知识从大规模语料库编码到大规模模型参数中。对于训练 LLMs,有语言建模和去噪自编码两个常用的预训练任务。
模型训练

在这一部分中,研究者回顾了训练 LLMs 的重要设置,技术和训练 LLMs 技巧。

对于 LLMs 的参数优化,研究者提出了常用的批量训练、学习率、优化器和训练稳定性的设置。

随着模型和数据规模的增加,在有限的计算资源下有效地训练 LLMs 模型已经变得困难。特别是,需要解决两个主要技术问题,例如通过输入增加训练和将更大的模型加载到 GPU 内存中。这一部分回顾了现有工作中几种广泛使用的方法,以解决上述两个挑战,即 3D 并行、ZeRO 和混合精度训练,并就如何利用它们进行训练给出了建议。  

LLMs 的适应性调优

经过预训练,LLMs 可以获得解决各种任务的通用能力。然而越来越多的研究表明,LLMs 的能力可以根据具体目标进一步调整。在第五节中,研究者详细介绍了调整预训练 LLMs 的两个主要方法,即指令调优(instruction tuning)和对齐调优(alignment tuning)。前一种方法主要是为了提高或解锁 LLMs 的能力,而后一种方法则是为了使 LLMs 的行为与人类的价值观或偏好一致。

指令调优

本质上,指令调优是在自然语言形式的格式化实例集合上微调预训练 LLMs 的方法,这与监督微调和多任务提示训练高度相关。为了执行指令调优,我们首先需要收集或构建指令格式的实例。然后,我们通常使用这些格式化实例以监督学习方式微调 LLMs(例如,使用序列到序列损失进行训练)。在指令调整后,LLMs 可以展示出卓越的能力,泛化出能解决未见任务的能力,即使在多语言环境中也是如此。

最近的一项调查对指令调优研究进行了系统的概述。相比之下,本文主要关注指令调优对 LLMs 的影响,并提供实例收集和调优的详细指南或策略。此外,本文还讨论了使用指令调优来满足用户的实际需求,这已广泛应用于现有的 LLMs,例如 InstructGPT 和 GPT-4。
格式化实例构建:通常,指令格式的实例由任务描述(称为指令)、输入输出对和少量演示(可选)组成。作为重要的公共资源,现有研究已经发布了大量以自然语言格式化的标记数据(参见表 5 中的可用资源列表)。接下来,本文将介绍构造格式化实例的两种主要方法(参见图 4 中的插图),然后讨论实例构造的几个关键因素。

指令调优策略:与预训练不同,指令调优通常更有效,因为只有适度数量的实例用于训练。虽然指令调优可以被认为是一个有监督的训练过程,但它的优化在几个方面与预训练不同,例如训练目标(即序列到序列损失)和优化配置(例如更小的批次) 大小和学习率),这在实践中需要特别注意。除了这些优化配置之外,指令调优还需要考虑两个重要方面:

  • 平衡数据分布。
  • 结合指令调优和预训练。



对齐调优

这部分首先介绍了对齐的背景及其定义和标准,然后重点介绍了用于对齐 LLMs 的人类反馈数据的收集,最后讨论了用于对齐调整的人类反馈强化学习的关键技术。


相关文章
|
5月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
80 6
|
24天前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
45 1
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
47 4
|
5月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
226 1
|
4月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
6月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
113 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
数据采集 人工智能 监控
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
145 0
|
人工智能
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
|
Web App开发 监控 安全
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
109 0
|
Web App开发 机器学习/深度学习 人工智能
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
147 0

热门文章

最新文章