大语言模型的进化树,这是一份超详细ChatGPT「食用」指南(2)

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 大语言模型的进化树,这是一份超详细ChatGPT「食用」指南

2.1 BERT 式语言模型:编码器 - 解码器或仅编码器


由于自然语言数据很容易获得,并且还能使用无监督训练范式来更好地利用超大规模数据集,因此最近一段时间,自然语言无监督学习的发展获得了长足的进步。一种常用方法是基于上下文来预测句子中被遮掩的词。这种训练范式被称为掩码语言模型(Masked Language Model)。这种训练方式让模型能更深刻地理解词与其上下文之间的关系。这些模型是在大型文本语料上训练的,使用了 Transformer 架构等技术,并且在许多 NLP 任务上达到过最佳表现,比如情感分析和命名实体识别。著名的掩码语言模型有 BERT、RoBERTa 和 T5。由于其在多种任务上的成功表现,掩码语言模型已经成为自然语言处理领域的一种重要工具。


2.2 GPT 式语言模型:仅解码器


尽管语言模型的架构通常与具体任务无关,但这些方法需要基于具体下游任务的数据集进行微调。研究者发现扩增语言模型的规模就能显著提升其在少样本或零样本时的表现。在提升少样本和零样本时的表现方面,最成功的模型是自回归语言模型,它的训练方式是根据给定序列中前面的词来生成下一个词。这些模型已被广泛用于文本生成和问答等下游任务。自回归语言模型包括 GPT-3、OPT、PaLM 和 BLOOM。变革性的 GPT-3 首次表明通过提示和上下文学习能在少 / 零样本时给出合理结果,并由此展现了自回归语言模型的优越性。


另外还有针对具体任务优化的模型,比如用于代码生成的 CodeX 以及用于金融领域的 BloombergGPT。近期的重大突破是 ChatGPT,该模型是针对对话任务优化的 GPT-3,其能为多种现实世界应用生成更具交互性、更连贯且更贴合上下文的对话。


3 数据方面的实用指南


本节将介绍在为下游任务选择合适模型时数据的关键性作用。数据对模型有效性的影响从预训练阶段就开始了,并会一直持续到训练和推理阶段。


重点 1


(1)当下游任务会用到分布之外的数据时,比如使用对抗样本或数据域变化时,LLM 的泛化能力优于微调模型。

(2)当已标注数据有限时,LLM 优于微调模型;当有丰富的已标注数据时,两者都是合理选择,这取决于具体的任务需求。

(3)建议选择预训练使用的数据域与下游任务数据域相似的模型。


4 NLP 任务方面的实用指南


本节将详细讨论 LLM 在多种下游 NLP 任务上是否有用以及对应的模型能力。图 2 是将所有讨论总结成的一张决策流程图。当面对某个任务时,可基于该流程进行快速决策。


图 2:用户为 NLP 应用选择 LLM 或微调模型时的决策流程。这张决策流程图可帮助用户评估他们手头的下游 NLP 任务是否满足特定条件,并且还能基于评估结果确定他们的应用最适合选择 LLM 还是微调模型。在图中的决策流程中,Y 表示符合条件,N 表示不符合条件。最后一个条件的 Y 旁的黄色圆圈表示目前还没有很适合这类应用的模型。


4.1 传统的 NLU 任务


传统 NLU 任务是 NLP 领域中一些基本任务,包括文本分类、命名实体识别(NER)、蕴含预测(entailment prediction)等。这些任务中的许多都可用作更大型 AI 系统的中间步骤,比如将 NER 用于知识图谱构建。


不适用 LLM:对于大多数自然语言理解任务,比如 GLUE 和 SuperGLUE 中的任务,如果该任务已有丰富的标注良好的数据并且测试集中仅有非常少的数据在分布之外,那么微调模型的表现依然更好。当任务与数据集各不相同时,小型微调模型和 LLM 之间的差距也会不同。


适用 LLM:但是,也有些 NLU 任务更适合用 LLM 处理。其中两项代表性任务是繁杂文本的分类问题和对抗式自然语言推理。


重点 2


对传统自然语言理解任务而言,微调模型通常是比 LLM 更好的选择,但如果该任务需要强大的泛化能力,那么 LLM 可提供帮助。


4.2 生成任务


自然语言生成的目标是创建连贯的、有意义的且符合上下文的符号序列,其大致上包含两大类任务。第一类任务关注的重心是将输入文本转换成新的符号序列,例子包括段落摘要和机器翻译。第二类任务则是「开放式生成」,目标是从头开始生成文本或符号,使之准确匹配输入的描述,比如编写电子邮件、撰写新文章、创造虚构故事以及写代码。


适用 LLM:生成任务需要模型全面理解输入的内容或需求并且还需要一定程度的创造力。这正是 LLM 擅长的。


不适用 LLM:在大多数有丰富资源的翻译任务和资源很少的翻译任务上,微调模型的表现更佳,比如 DeltaLM+Zcode。对于有丰富资源的机器翻译,微调模型稍微优于 LLM。对于资源极少的机器翻译,比如英语 - 哈萨克语翻译,微调模型显著优于 LLM。


重点 3


得益于强大的生成能力和创造力,LLM 在大多数生成任务上都有优势。


4.3 知识密集型任务


知识密集型 NLP 任务是指非常依赖背景知识、特定领域专业知识或一般性真实世界知识的任务类别。这些任务需要的不仅仅是模式识别或句法分析。它们高度依赖记忆和适当利用知识,这些知识关联着我们的真实世界的特定实体、事件和常识。


适用 LLM:一般来说,如果有数以十亿计的训练 token 和参数,LLM 所包含的真实世界知识量可远远超越微调模型。


不适用 LLM:某些其它任务需要的知识不同于 LLM 学习到的知识。所需的知识不是 LLM 学习到的关于真实世界的知识。在这样的任务中,LLM 没有明显优势。


重点 4

(1)得益于庞大的真实世界知识,LLM 擅长处理知识密集型任务。(2)当知识需求与所学知识不匹配时,LLM 会遇到困难;或者当任务只需要上下文的知识时,微调模型可以达到与 LLM 同等的表现。


4.4 在扩展规模方面的能力


扩展 LLM 的规模(比如参数、训练计算等)可以极大助力预训练语言模型。通过扩大模型规模,模型处理多种任务的能力通常能得到提升。反映到某些指标上,模型的性能表现与模型规模呈现幂律关系。举个例子,用于度量语言建模性能的交叉熵损失会随模型规模的指数级增长而线性下降,这也被称为「标度律(scaling-law)」。对于推理等某些关键能力,扩大模型规模就能逐渐将这些能力从非常低的水平提升到一个可使用的水平,甚至可接近人类水平。本小节将从规模对 LLM 的能力和行为的影响方面介绍 LLM 的使用。


推理方面的 LLM 用例:推理涉及到理解信息、进行推论和做出决定,是人类智力的一大核心能力。对 NLP 而言,推理却极具挑战性。现有的许多推理任务可以分为常识推理和算术推理两类。模型增大能极大提升 LLM 的算术推理能力。常识推理不仅需要 LLM 记住事实性知识,还需要 LLM 执行一些有关事实的推理步骤。常识推理能力会随模型大小的增长而逐渐提升。相比于微调模型,LLM 在大多数数据集上都表现更优。


涌现能力方面的 LLM 用例:扩增模型规模还能赋予模型一些超越幂律规则的前所未有的奇妙能力。这些能力被称为「涌现能力(emergent ability)」。正如论文《Emergent Abilities of Large Language Models》中定义的那样:LLM 的涌现能力是指小规模模型不具备但出现在大规模模型中的能力。(有关该论文的更多解读可参阅《Jeff Dean 等人新作:换个角度审视语言模型,规模不够发现不了》)这意味着我们无法基于小规模模型的性能提升而推断预测出这种能力;而在某些任务上,模型的规模一旦超过一定程度,就可能突然获得优异表现。涌现能力通常不可预测并且出人意料,这可能导致模型有能力处理随机出现或意料之外的任务。


不适用 LLM 以及理解涌现:尽管大多数情况下,模型更大,表现也更优,但也依然存在例外情况。


在某些任务上,随着 LLM 规模的提升,模型表现会开始下降。这也被称为反标度现象(Inverse Scaling Phenomenon)。此外研究者还观察到另一个有关规模的有趣现象,即 U 形现象(U-shaped Phenomenon)。顾名思义,该现象是指随着 LLM 模型增大,其在特定任务上的表现一开始会提升,然后会开始下降,之后又会再次提升。


为了推进该领域的研究,我们必需更深入地理解涌现能力、反标度现象和 U 形现象。


重点 5


(1)随着模型规模的指数级增长,LLM 的算术推理和常识推理能力也会上升。(2)随着 LLM 规模的扩增,涌现能力能机缘巧合地发现新用途,比如词处理能力和逻辑能力。(3)模型的能力并不总是会随规模提升,而且我们对大型语言模型的能力与规模的关系的理解还很有限。


4.5 杂项任务


为了更好地理解 LLM 的优势和短板,下面会谈谈上面没有涉及到的其它任务。


不适用 LLM:如果模型目标与训练数据有差异,那么 LLM 在这些任务上通常会遇到困难。


适用 LLM:LLM 尤其适用于某些特定任务。举些例子,LLM 非常擅于模仿人类、LLM 还可用于评估摘要和翻译等某些 NLG 任务的质量、LLM 的某些能力还能带来性能提升之外的其它好处,如可解释性。


重点 6


(1)对于远离 LLM 的预训练目标和数据的任务而言,微调模型和特定领域模型仍有一席之地。(2)LLM 擅于模仿人类、数据标注和生成。它们也可用于 NLP 任务的质量评估,并且有可解释性等好处。


4.6 真实世界「任务」


本小节最后讨论一下 LLM 和微调模型在真实世界「任务」上的应用。这里所用的「任务」一词并不严谨,因为不同于学术场景,真实世界场景通常缺乏形式优良的定义。对模型的很多需求甚至不能被视为 NLP 任务。模型面临的真实世界挑战来自以下三方面:


  • 有噪声的 / 非结构化的输入。真实世界的输入来自真实世界的人,他们大都不是专家。他们并不了解如何与模型适当交互,甚至都可能无法流畅地使用文本。因此,真实世界的输入数据可能很混乱、带有拼写错误、口语化文本和多语言混杂,这不同于预训练或微调使用的定义格式良好的数据。
  • 未被学术界形式化的任务。真实世界场景中的任务通常没有得到学术界的良好定义,并且多样性也远远超出学术研究场景的定义。用户通常提出的查询或请求并不能很好地归入预定义的类别,并且有时单个查询会包含多项任务。
  • 遵从用户的指令。用户的请求可能会包含多个隐含意图(比如对输出格式有具体要求),或者如果没有后续问题,不清楚用户期望的预测结果。模型需要理解用户的意图并提供与这些意图一致的输出。


本质上讲,来自用户请求的这些真实世界难题是因为偏离了针对特定任务设计的任何 NLP 数据集的分布。公共 NLP 数据集并不能反映这些模型的使用方式。


重点 7


相比于微调模型,LLM 更适合用于处理真实世界场景。但是,评估模型在真实世界中的有效性依然是一个悬而未决的问题。


5 其它方面


尽管 LLM 适用于多种下游任务,但也有其它一些因素需要考虑,比如效率和可信度。效率方面涉及到的问题包括 LLM 的训练成本、推理延迟度以及高效利用参数的调优策略。在可信度方面则需要考虑 LLM 的稳健性和校准能力、公平和偏见、潜在的错误相关性以及安全性难题。重点 8(1)如果任务对成本敏感或有严格延迟要求,那么应该优先考虑轻量的本地微调模型。在部署和交付模型时,可考虑进行调优以高效利用参数。(2)LLM 的零样本方法能防止其从具体任务的数据集中学习捷径,而这种情况对微调模型来说却很常见。尽管如此,LLM 仍会表现出一定的捷径学习问题。(3)由于 LLM 潜在的有害或有偏见输出以及幻觉(hallucination)问题可能导致严重后果,因此与 LLM 相关的安全问题应得到最大重视。人类反馈等方法有望缓解这些问题。


6 总结和未来挑战


这份实用指南提供了有关 LLM 的洞见以及在各种 NLP 任务上使用 LLM 的最佳实践方法。希望这能帮助研究者和实践者利用 LLM 的潜力并推动语言技术的创新。


当然,LLM 也还有一些有待解决的挑战:


  • 在真实世界数据集上对模型进行评估。尽管现有的深度学习模型主要是在 ImageNet 等标准学术数据集上进行评估,但标准学术数据集是有局限的,并不能确切反映模型在真实世界中的表现。随着模型的进步,有必要在反映真实需求的更多样化、复杂和真实的数据上评估它们。在学术数据集和真实世界数据集上评估模型,能模型得到更严格的测试,还能让我们更好地理解它们在真实世界应用中的有效性。这能确保模型有能力解决真实世界难题并交付实际可用的解决方案。
  • 模型合准(Model Alignment)。确保日益强大和自动化的模型与人类价值观和优先项保持一致是非常重要的。我们必须想出办法,确保模型的行为符合预期,并且不要为我们不想要的结果而优化模型。要从模型开发过程一开始就整合合准技术,这是很重要的。在评估和确保合准方面,模型透明性和可解释性也很重要。此外,着眼未来,还有更加艰巨挑战正在显现:对超人类的系统执行合准。尽管目前这一任务超出了我们的需求,但重点是要考虑到合准这样先进的系统并为此做准备,因为它们可能会带来独特的复杂性和道德伦理问题。
  • 安全性合准(Safety Alignment)。尽管讨论 AI 带来的存在主义风险很重要,但我们还是需要切实的研究来确保能安全地开发先进 AI。这包括用于可解释性、可扩展监督与治理以及模型属性的形式验证的技术。在模型的构建过程中,安全不应被视为一个附加组件,而应是整体的组成部分。
  • 在模型规模变化时预测其表现。当模型大小和复杂性显著提升时,我们很难预测模型会有何表现。应当开发技术来更好预测模型规模提升或使用新架构时模型的表现情况,这能让我们更高效地使用资源以及加快开发进程。有这样一些可能性:训练一个更小的「种子」模型并通过外推方式预测其增长情况,模拟扩大规模或调整模型的效果,以及对不同规模的模型的测试基准进行迭代以构建标度律。这能让我们在构建模型之前就对模型的性能表现有所了解。
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
【大模型】大语言模型前沿技术系列讲座-学习笔记2:Transformer ->ChatGPT
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24338 9
|
存储 人工智能 自然语言处理
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南(1)
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南
220 0
|
4月前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
118 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
HuggingGPT是一个框架,它使用大型语言模型(如ChatGPT)作为控制器来管理和协调Hugging Face上的AI模型,以语言作为通用接口解决多模态和领域的复杂AI任务。
69 0
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
|
4月前
|
机器学习/深度学习 人工智能 算法
为什么ChatGPT等AI大模型都是基于Python开发?
为什么ChatGPT等AI大模型都是基于Python开发?
|
4月前
|
人工智能 自然语言处理 Linux
免费ChatGPT4o灵办AI可体验浏览器插件
灵办AI就是您所需的最佳助手!我们为您带来了一款多功能AI工具,ChatGPT4o不仅能为您提供精准翻译,还能满足您的对话需求、智能续写、AI搜索、文档阅读、代码生成与修正等多种需求。灵办 AI,真正让工作和学习变得轻松高效!一款多功能智能助手,旨在提升工作和学习效率。它提供实时翻译、对话问答、搜索、写作和网页阅读等服务,支持多种浏览器和操作系统,帮助用户随时获取信息,打破语言障碍,优化内容创作和信息处理。
126 0
|
4月前
|
Web App开发 人工智能 安全
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
|
4月前
|
人工智能 安全 机器人
ChatGPT 1岁:创新、争议和AI产生突破的一年
ChatGPT 1岁:创新、争议和AI产生突破的一年