斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)

简介: 斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

机器之心 2023-05-03 12:48 发表于河北

机器之心报道

编辑:蛋酱、Panda W

大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。但斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑,他们认为是人为选择度量方式的结果。

「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显了,更接近线性。

近期,由于研究者们观察到大型语言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任务中表现出所谓的「涌现能力」,这一术语在机器学习领域得到了极大关注:

事实上,复杂系统的新兴特性一直以来都是物理学、生物学、数学等学科在研究的重点。

值得注意的一个观点是,诺贝尔物理学奖获得者 P.W.Anderson 提出了「More Is Different」。这一观点认为,随着系统复杂性的增加,新的属性可能会具象化,即使从对系统微观细节的精确定量理解中并不能(容易或根本无法)预测到。

大模型领域的「涌现」如何定义?一种通俗的说法是「在小规模模型中不存在,但在大规模模型中存在的能力」,因此,它们不能通过简单地推断小规模模型的性能改进来预测。

这种涌现的能力可能首先在 GPT-3 家族中被发现。后续的一些工作强调了这一发现:「虽然模型性能在一般水平上是可以预测的,但在特定任务上,其性能有时会在规模上出现相当难以预测的涌现」。事实上,这些涌现能力非常令人惊讶,以至于「突然的、特定的能力扩展」已经被认为是 LLM 的两个最高定义特征之一。此外,「breakthrough capabilities」和「sharp left turns」等术语也被使用。

综上所述,我们可以确定 LLM 涌现能力的两个决定性属性:

1. 敏锐性,从「不存在」到「存在」似乎只是瞬间的过渡;2. 不可预测性,在看似不可预见的模型规模内过渡。

与此同时,还有一些问题悬而未决:是什么控制了哪些能力会涌现?什么控制着能力的涌现?我们怎样才能使理想的能力更快地涌现,并确保不理想的能力永不涌现?

这些问题与人工智能的安全和对齐息息相关,因为涌现的能力预示着更大的模型可能有一天会在没有警告的情况下获得对危险能力的掌握,这是人类不希望发生的。

在最新的一篇论文中,斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑。

论文:https://arxiv.org/pdf/2304.15004.pdf

具体而言,此处的质疑针对的是在特定任务中模型输出作为模型规模的函数而发生的涌现和不可预测的变化。

他们的怀疑基于以下观察:似乎只有在非线性或不连续地扩展任何模型的 per-token 错误率的度量下,模型才会出现涌现能力。例如,在 BIG-Bench 任务中,>92% 的涌现能力是这两个度量下出现的:

这就为 LLMs 的涌现能力的起源提出了另一种解释的可能性:尽管模型族的 per-token 错误率会随着模型规模的增加进行平滑、持续且可预测地变化,但看似尖锐和不可预测的变化可能是由研究者选择的测量方法引起的

也就是说,涌现能力可能是一种海市蜃楼,主要是由于研究者选择了一种非线性或不连续地改变 per-token 错误率的度量,部分原因是由于拥有太少的测试数据,不足以准确估计较小模型的性能(从而导致较小的模型看起来完全不能执行任务),另一部分原因是由于评估了太少的大规模模型。

为了阐述这种解释方式,研究者将其作为一个简单的数学模型,并证明它是如何从数量上再现为支持 LLM 的涌现能力而提供的证据。然后,研究者以三种互补的方式检验了这种解释:

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根据替代假说做出、测试并确认三个预测。2. 对先前的一些结果进行了元分析,并表明在任务指标 - 模型家族三联体的空间中,出现的能力只出现在某些指标上,而不是任务上的模型家族(列)。该研究进一步表明,在固定的模型输出上,改变度量会导致涌现现象的消失。3. 故意在不同架构的深度神经网络中诱导出多个视觉任务的涌现能力(这在以前从未被证明过),以显示类似的度量选择如何诱导出看似涌现的能力。

检验一:InstructGPT/GPT-3 模型系列分析

研究者选择了 GPT 系列模型进行进一步分析,原因在于它是可公开查询的,这一点和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被认为在整数算术任务中展示出涌现能力。此处,研究者也选择了整数算术这一任务。

图 2: 大型语言模型的涌现能力是研究者分析的创造物,而不是模型输出随规模变化的根本性变化。

正如第 2 节中用数学和图表解释的那样,研究者提出的替代解释可以预测出三个结果:

1. 随着模型规模提升,如果将度量从非线性 / 不连续的度量(图 2CD)换成线性 / 连续的度量(图 2EF),那么应该会有平滑的、连续的、可预测的性能提升。

2. 对于非线性的度量,如果通过增大测试数据集的大小而提升所测模型性能的分辨率,那么应该能让模型得到平滑的、连续的、可预测的提升,并且该提升的比例与所选度量的可预测的非线性效应是相对应的。

3. 无论使用什么度量指标,提升目标字符串长度都应该会对模型性能产生影响,该影响是长度为 1 的目标性能的一个函数:对于准确度是近乎几何的函数,对于 token 编辑距离是近乎准线性的函数。

为了测试这三个预测结论,研究者收集了 InstructGPT/GPT-3 系列模型在两个算术任务上的字符串输出结果:使用 OpenAI API 执行 2 个两位数整数之间的两样本乘法以及 2 个四位数整数之间的两样本加法。

图 3:随着模型规模提升,改变度量可以为性能带来平滑、连续、可预测的改变。


从左至右:数学模型,2 个两位数整数乘法任务, 2 个四位数整数加法任务。上方的图是使用一个非线性度量(如准确度)而测得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目标长度更长时显得锐利和不可预测。而下方的图是使用一个线性度量(如 token 编辑距离)而测得的模型性能,此系列模型表现出了平滑的、可预测的性能提升,这是研究者宣称的涌现产生的能力。

预测:涌现能力在线性度量下会消失

在这两个整数乘法和加法任务上,如果目标字符串的长度是 4 或 5 位数字并且性能的度量方式是准确度(图 3 上一行图),那么 GPT 系列模型会展现出涌现的算术能力。但是,如果将一个度量从非线性换成线性,同时保持模型的输出固定,那么该系列模型的性能会得到平滑、连续和可预测的提升。这就确认了研究者的预测,由此表明锐利和不确定性的来源是研究者所选择的度量,而非模型的输出的变化。还可以看到,在使用 token 编辑距离时,如果将目标字符串的长度从 1 增大至 5,那么可预见该系列模型的性能会下降,并且下降趋势是近乎准线性的,这符合第三个预测的前半部分。

预测:涌现能力随着更高的分辨率评估的出现而消失

接下来是第二个预测:即使是用准确度等非线性度量,更小模型的准确度也不会为零,而是高于偶然性的非零值,其比例是与选择使用准确度为度量相对应的。为了提升分辨率,以进一步能准确估计模型准确度,研究者还生成了其它一些测试数据,然后他们发现:不管是在整数乘法任务上还是在整数加法任务上,InstructGPT/GPT-3 系列的所有模型都得到了超过偶然性的正值准确度(图 4)。这验证了第二个预测。可以看到,随着目标字符串长度增大,准确度会随目标字符串的长度而呈现近乎几何式的下降,这符合第三个预测的后半部分。这些结果还表明研究者选择的准确度会产生一些我们应该能预料到的(近似)效果,即随目标长度而近乎几何式地衰减。


图 4:使用更多测试数据集得到了更好的准确度估计,这揭示出性能的变化是平滑的、连续的和可预测的。


从左至右:数学模型,2 个两位数整数乘法任务, 2 个四位数整数加法任务。通过生成更多测试数据来提升分辨率,揭示出即使是在准确度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然结果的,并且其在两种涌现能力上的提升是平滑的、连续的和可预测的,这两种涌现能力的结果在定性上是与数学模型相符的。

检验二:模型涌现的元分析

由于 GPT 系列模型是可以公开查询使用的,因此可以对它们进行分析。但是,其它一些也有人声称具备涌现能力的模型(比如 PaLM、Chinchilla、Gopher)却并不是公开可用的,它们生成的输出也没有公开,这意味着研究者在分析已发表结果时是受限的。研究者基于自己提出的替代假设给出了两个预测:

  • 第一,在「任务 - 度量 - 模型系列」三元组的「群体层面(population level)」上,当选择使用非线性和 / 或非连续度量来评估模型性能时,模型应当会在任务上表现出涌现能力。
  • 第二,对于展现出了涌现能力的特定「任务 - 度量 - 模型系列」三元组,如果将度量改变成线性和 / 或连续度量,那么涌现能力应该会被消除。


为了测试这两个假设,研究者调查了声称在 BIG-Bench 评估套件上涌现出的能力,因为在该套件上的基准是公开可用的,并且也有很好的文档。


目录
打赏
0
0
0
0
369
分享
相关文章
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。
123 46
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
|
2月前
|
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
北航PHM实验室提出了一种基于大型语言模型(LLM)的轴承故障诊断框架,结合传统诊断技术,解决了跨条件适应性、小样本学习和跨数据集泛化等问题。该框架通过信号特征量化方法提取振动数据的语义信息,并采用LoRA和QLoRA微调预训练模型,显著提升了诊断模型的泛化能力。实验结果显示,在跨数据集训练中,模型准确性提升了约10%,相关成果发表于《Mechanical Systems and Signal Processing》期刊。尽管存在计算资源需求高等挑战,该研究为旋转机械的高效维护提供了新思路。
88 2
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
117 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
揭开大模型幻觉之谜:深入剖析数据偏差与模型局限性如何联手制造假象,并提供代码实例助你洞悉真相
【10月更文挑战第2天】近年来,大规模预训练模型(大模型)在自然语言处理和计算机视觉等领域取得卓越成绩,但也存在“大模型幻觉”现象,即高准确率并不反映真实理解能力。这主要由数据偏差和模型局限性导致。通过平衡数据集和引入正则化技术可部分缓解该问题,但仍需学界和业界共同努力。
136 4
揭秘混合专家(MoE)模型的神秘面纱:算法、系统和应用三大视角全面解析,带你领略深度学习领域的前沿技术!
【8月更文挑战第19天】在深度学习领域,混合专家(Mixture of Experts, MoE)模型通过整合多个小型专家网络的输出以实现高性能。从算法视角,MoE利用门控网络分配输入至专家网络,并通过组合机制集成输出。系统视角下,MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面,MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具,能够解决复杂问题并提升效率。
372 2
|
9月前
|
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
61 2
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
参加2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛的经验,包括使用DPCNN、HAN、TextRCNN、CapsuleNet和TextRCNNAttention等传统深度学习模型的方案实现,以及提分技巧,如多个模型的提交文件投票融合和生成伪标签的方法。
61 0
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
194 0
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
140 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等