大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写

使用
在预训练或适应性调整之后,使用 LLMs 的一个主要方法是为解决各种任务设计合适的 prompt 策略。一个典型的 prompt 方法是上下文学习(in-context learning),它以自然语言文本的形式制定了任务描述或演示。此外,思维链 prompting 方法可以通过将一系列中间推理步骤纳入 prompt 中来加强上下文学习。在第六节中,研究者详细介绍了这两种技术的细节。

上下文学习


作为一种特殊的 prompt 形式,上下文学习(ICL)是 GPT-3 首次提出的,它已经成为利用 LLMs 的一种典型方法。

思维链 prompt
思维链(CoT)是一种改进的 prompt 策略,可以提高 LLM 在复杂推理任务中的表现,如算术推理、常识推理和符号推理。CoT 不是像 ICL 那样简单地用输入 - 输出对来构建 prompt,而是将能够导致最终输出的中间推理步骤纳入 prompt。在第 6.2 节中,研究者详细说明了 CoT 与 ICL 的用法,并讨论 CoT 何时有效以及为何有效。
能力评估


为了研究 LLMs 的有效性和优越性,研究者利用了大量的任务和基准来进行实证评估和分析。第七节首先介绍了三种用于语言生成和理解的 LLMs 的基本评估任务,然后介绍几种具有更复杂设置或目标的 LLMs 的高级任务,最后讨论了现有的基准和实证分析。

基本评估任务


图 7:一个公开 LLM 的内在和外在幻觉的例子(访问日期:2023 年 3 月 19 日)。作为内在幻觉的例子,LLM 对 Cindy 和 Amy 之间的关系给出了一个与输入相矛盾的判断。对于外在幻觉,在这个例子中,LLM 似乎对 RLHF(从人类反馈中强化学习)的含义有不正确的理解,尽管它能正确理解 LLM 的含义。

高级任务评估

除了上述基本评估任务,LLMs 还表现出一些高级能力,需要特别评估。在第 7.2 节中,研究者讨论了几个有代表性的高级能力和相应的评价方法,包括人工对齐、与外部环境的交互以及工具的操作。
总结与未来方向

在最后一节中,研究者总结了这次调查的讨论,并从以下几个方面介绍了 LLMs 的挑战和未来发展方向。


理论和原理:为了理解 LLM 的基本工作机制,最大的谜团之一是信息如何通过非常大的深度神经网络进行分配、组织和利用。揭示建立 LLMs 能力基础的基本原则或元素是很重要的。特别是,缩放似乎在提高 LLMs 的能力方面发挥了重要作用。已有研究表明,当语言模型的参数规模增加到一个临界点(如 10B)时,一些新兴能力会以一种意想不到的方式出现(性能的突然飞跃),典型的包括上下文学习、指令跟随和分步推理。这些「涌现」的能力令人着迷,但也令人困惑:LLMs 何时以及如何获得这些能力?最近的一些研究要么是进行广泛的体验,调查新兴能力的效果和这些能力的促成因素,要么是用现有的理论框架解释一些特定的能力。一个有见地的技术帖子将 GPT 系列模型作为目标也专门讨论了这个话题,然而仍然缺少更正式的理论和原则来理解、描述和解释 LLM 的能力或行为。由于涌现能力与自然界中的相变有着密切的相似性,跨学科的理论或原则(例如 LLMs 是否可以被视为某种复杂系统)可能对解释和理解 LLMs 的行为有帮助。这些基本问题值得研究界探索,对于开发下一代的 LLMs 很重要。

模型架构:由于可扩展性和有效性,由堆叠的多头自注意力层组成的 Transformer 已经成为构建 LLMs 的普遍架构。人们提出了各种策略来提高这个架构的性能,如神经网络配置和可扩展的并行训练(见 4.2.2 节讨论)。为了进一步提高模型的容量(如多轮对话能力),现有的 LLMs 通常保持较长的上下文长度,例如,GPT-4-32k 具有 32768 个 token 的超大上下文长度。因此,一个实际的考虑是减少标准的自注意力机制所产生的时间复杂性(原始的二次成本)。
此外,研究更高效的 Transformer 变体对构建 LLMs 的影响是很重要的,例如稀疏注意力已经被用于 GPT-3。灾难性遗忘也一直是神经网络的挑战,这也对 LLMs 产生了负面影响。当用新的数据调整 LLMs 时,原先学到的知识很可能被破坏,例如根据一些特定的任务对 LLMs 进行微调会影响它们的通用能力。当 LLMs 与人类的价值观相一致时,也会出现类似的情况,这被称为对齐税(alignment tax)。因此有必要考虑用更灵活的机制或模块来扩展现有的架构,以有效支持数据更新和任务专业化。
模型训练:在实践中,由于巨大的计算量以及对数据质量和训练技巧的敏感性,预训练可用的 LLMs 非常困难。因此,考虑到模型有效性、效率优化和训练稳定性等因素,开发更系统、更经济的预训练方法来优化 LLMs 变得尤为重要。开发更多的模型检查或性能诊断方法(例如 GPT-4 中的可预测缩放),便于在训练中发现早期的异常问题。此外,它还要求有更灵活的硬件支持或资源调度机制,以便更好地组织和利用计算集群中的资源。由于从头开始预训练 LLMs 的成本很高,因此必须设计一个合适的机制,根据公开的模型检查点(例如 LLaMA 和 Flan-T5)不断地预训练或微调 LLMs。为此,必须解决一些技术问题,包括数据不一致、灾难性遗忘和任务专业化。到目前为止,仍然缺乏具有完整的预处理和训练日志(例如准备预训练数据的脚本)的开源模型检查点以供重现的 LLM。为 LLMs 的研究提供更多的开源模型将是非常有价值的。此外,开发更多的改进调整策略和研究有效激发模型能力的机制也很重要。
模型的使用:由于微调在实际应用中的成本很高,prompt 已经成为使用 LLMs 的突出方法。通过将任务描述和演示例子结合到 prompt 中,上下文学习(prompt 的一种特殊形式)赋予了 LLMs 在新任务上良好的表现,甚至在某些情况下超过了全数据微调模型。此外,为了提高复杂推理的能力,人们提出了先进的 prompt 技术,例如思维链(CoT)策略,它将中间的推理步骤纳入 prompt。然而,现有的 prompt 方法仍然有以下几个不足之处。首先,它在设计 prompt 时需要大量的人力,因此为解决各种任务而自动生成有效的 prompt 将非常有用;其次,一些复杂的任务(如形式证明和数字计算)需要特定的知识或逻辑规则,而这些知识或规则可能无法用自然语言描述或用例子来证明,因此开发信息量更大、更灵活的任务格式化的 prompt 方法很重要;第三,现有的 prompt 策略主要集中在单圈的表现上,因此开发用于解决复杂任务的交互式 prompt 机制(如通过自然语言对话)非常有用,ChatGPT 已经证明了这一点。
安全和对齐:尽管 LLMs 具备相当的能力,但它的安全问题与小型语言模型相似。例如,LLMs 表现出产生幻觉文本的倾向,比如那些看似合理但可能与事实不符的文本。更糟糕的是,LLMs 可能被有意的指令激发,为恶意的系统产生有害的、有偏见的或有毒的文本,导致滥用的潜在风险。要详细讨论 LLMs 的其他安全问题(如隐私、过度依赖、虚假信息和影响操作),读者可以参考 GPT-3/4 技术报告。作为避免这些问题的主要方法,来自人类反馈的强化学习(RLHF)已被广泛使用,它将人类纳入训练循环,以发展良好的 LLMs。为了提高模型的安全性,在 RLHF 过程中加入安全相关的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依赖于专业标签人员的高质量的人类反馈数据,使得它很难在实践中得到正确的实施。因此,有必要改进 RLHF 框架,以减少人类标签员的工作,并寻求一种更有效的注释方法,保证数据质量,例如可以采用 LLMs 来协助标注工作。最近,红色团队被采用来提高 LLMs 的模型安全性,它利用收集的对抗性 prompt 来完善 LLMs(即避免红色团队的攻击)。此外,通过与人类交流建立 LLMs 的学习机制也很有意义,人类通过聊天给出的反馈可以直接被 LLMs 利用来进行自我完善。
应用和生态系统:由于 LLMs 在解决各种任务方面表现出强大的能力,它们可以被应用于广泛的现实世界的应用(例如,遵循特定的自然语言指令)。作为一个显著的进步,ChatGPT 已经潜在地改变了人类获取信息的方式,这带来了新必应的发布。在不久的将来,可以预见,LLMs 将对信息搜索技术产生重大影响,包括搜索引擎和识别系统。
此外,随着 LLMs 的技术升级,智能信息助理的发展和使用将得到极大的促进。在更广泛的范围内,这一波技术创新倾向于建立一个由 LLMs 授权的应用程序的生态系统(例如,ChatGPT 对插件的支持),这将与人类生活密切相关。最后,LLMs 的崛起为通用人工智能(AGI)的探索提供了启示。它有希望开发出比以往更多的智能系统(可能有多模态信号)。同时,在这个发展过程中,人工智能的安全性应该是首要关注的问题之一,也就是说,让人工智能为人类带来好处而不是坏处。

相关文章
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
GPT学术优化:专为学术研究和写作设计的多功能开源项目
GPT学术优化是一个专为学术研究和写作设计的多功能开源项目,集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。
63 11
GPT学术优化:专为学术研究和写作设计的多功能开源项目
|
6月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
89 6
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
77 1
|
5月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
53 4
|
6月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
238 1
|
5月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
7月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
121 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
数据采集 人工智能 监控
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
155 0
|
人工智能
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
100 1
|
Web App开发 监控 安全
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
119 0

热门文章

最新文章