预测:涌现能力应该主要出现在非线性 / 非连续度量上
为了测试第一个预测,研究者分析了在哪些指标上,不同的「任务 - 模型系列」配对是否会出现涌现能力。为了确定一个「任务 - 度量 - 模型系列」三元组是否可能展现出涌现能力,他们借用了论文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定义。令 y_i ∈ R 表示模型大小为 x_i ∈ R 时的模型性能,并使得 x_i < x_i+1,则涌现分数为:
结果研究者发现,BIG-Bench 使用的大多数度量中没有表现出涌现能力的「任务 - 模型系列」配对:在人们偏好的 39 个 BIG-Bench 度量中,至多 5 个展现出了涌现能力(图 5A)。这 5 个大都是非线性的 / 非连续的,如精确字符串匹配、多选择分级、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多项度量来评估模型的任务表现,因此在其它度量下缺乏涌现能力这一现象说明:当使用其它度量来评价模型输出时,涌现能力并不会出现。
由于涌现分数仅表明有涌现能力,因此研究者还进一步分析了论文《137 emergent abilities of large language models》中人工标注的「任务 - 度量 - 模型系列」三元组。人工标注的数据表明 39 个度量中仅有 4 个表现出了涌现能力(图 5B),并且它们中的 2 个就占到了所宣称的涌现能力的 92% 以上(图 5C)。多选择分级和精确字符串匹配。多选择分级是非连续的,精确字符串匹配是非线性的(在目标长度度量上的变化是近乎几何式的)。总体而言,这些结果说明涌现能力仅出现在非常少量的非线性和 / 或非连续度量上。
图 5:仅有少数度量会出现涌现能力。(A) 在人们偏好的 39 个 BIG-Bench 度量中,至多只有 5 个度量上可能出现了涌现能力。(B) 所引论文中人工标注的数据表明仅有 4 个人们偏好的度量表现出了涌现能力。(C) 涌现能力中 > 92% 都出现在以下两个度量之一上:多选择分级和精确字符串匹配。
预测:如果替代非线性 / 非连续度量,涌现能力应该会被消除
对于第二个预测,研究者分析了前文所引论文中人工标注的涌现能力。他们关注的是 LaMDA 系列,因为其输出可通过 BIG-Bench 获取,而其它模型系列的输出无法这样获取。在已经发表的 LaMDA 模型中,最小的有 20 亿个参数,但 BIG-Bench 中的许多 LaMDA 模型都小很多,而且研究者表示由于无法确定这些更小模型的来源,因此没有在分析中考虑它们。在分析中,研究者认定了在多选择分级度量上 LaMDA 在哪些任务上展现出了涌现能力,然后他们提出了问题:当使用另一个 BIG-Bench 度量 Brier 分数时,LaMDA 能否在同样的任务上展现出涌现能力。Brier 分数是一套严格适当(strictly proper)的评分规则,其度量的是互斥结果的预测;对于一个二元结果的预测,Brier 分数简化成了结果及其预测概率质量之间的均方误差。
研究者发现,当非连续度量多选择分级变成连续度量 Brier 分数时(图 6),LaMDA 的涌现能力消失了。这进一步说明涌现能力的成因并非是随规模增长而导致的模型行为的本质变化,而是对非连续度量的使用。
图 6:在任务和模型系列保持不变的前提下改变 BIG-Bench 度量会导致涌现能力消失。上一行:当使用的是一个非连续度量(多选择分级)时,LaMDA 模型系列展现出了涌现能力。下一行:当使用的是一个连续的 BIG-Bench 度量(Brier 分数)时,LaMDA 模型系列在同样任务上不再有涌现能力。
检验三:诱导 DNN 出现涌现能力
研究者的观点是可以通过度量的选择来诱导模型产生涌现能力;为了证明这一点,他们展示了如何让不同架构(全连接、卷积、自注意力)的深度神经网络产生涌现能力。这里研究者重点关注的是视觉任务,原因有二。第一,人们现在主要关注大型语言模型的涌现能力,因为对于视觉模型而言,目前还没有观察到模型能力从无突然转变到有的现象。第二,某些视觉任务用大小适中的网络就足以解决,因此研究者可以完整构建出跨多个数量级规模的模型系列。
卷积网络涌现出对 MNIST 手写数字的分类能力
研究者首先诱导实现 LeNet 卷积神经网络系列涌现出分类能力,训练数据集是 MNIST 手写数字数据集。这个系列展现出了随参数数量增长,测试准确度平滑提升的现象(图 7B)。为了模拟有关涌现的论文中使用的准确度度量,这里使用的是子集准确度(subset accuracy):如果该网络从 K 个(独立的)测试数据中正确分类出了 K 个数据,那么该网络的子集准确度为 1,否则为 0。基于这一准确度定义,在 K 从 1 增长到 5 的设定中,该模型系列展现出了「涌现」能力,从而能够正确分类 MNIST 数字集,尤其是结合了模型大小的稀疏采样时(图 7C)。这个卷积系列的涌现分类能力在定性分析上符合已发表论文中的涌现能力,比如在 BIG-Bench 的地形测绘任务上的结果(图 7A)。
图 7:在卷积网络中诱导出涌现的 MNIST 分类能力。(A) 一篇已发表论文中的基于 BIG-Bench 地形测绘任务的涌现能力。(B) 在 MNIST 上训练的 LeNet 表现出:随模型参数数量增长,测试准确度展现出预测的、普遍的、S 形的增长。(C) 当把准确度重新定义成从 K 个独立测试数据中正确分类出 K 个时,这个新定义的度量会诱导出一种似乎在预料之外的变化。
非线性自动编码器在 CIFAR100 自然图像集上涌现出重建能力
为了凸显出研究者所选度量的锐利度是涌现能力的原因,并且为了表明这种锐利度不仅限于准确度等度量,研究者又诱导在 CIFAR100 自然图像集上训练的浅度(即单隐藏层)非线性自动编码器涌现出重建图像输入的能力。为此,他们刻意定义了一个新的用于衡量模型能力的不连续度量,该度量为平方重建误差低于固定阈值 c 的测试数据的平均数量:
其中 I (・) 是一个随机指示变量,x^n 是自动编码器对 x_n 的重建。研究者检视了自动编码器瓶颈单元的数量,然后发现随模型规模增长,网络的均方重建误差会表现出平滑的下降趋势(图 8B),但如果使用新定义的重建度量,对于选定的 c,这个自动编码器系列在重建该数据集上展现出的能力是锐利的和几乎不可预测的(图 8C),这个结果在定性分析上符合已发表论文中的涌现能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任务(图 8A)。
图 8:在浅度非线性自动编码器中诱导出涌现的重建能力。(A) 一篇已发表论文中的基于 BIG-Bench 周期性元素任务的涌现能力。(B) 在 CIFAR100 上训练的浅度非线性自动编码器展现出了平滑下降的均方重建误差。(C) 使用新定义的重建度量(公式 2)诱导出了不可预测的变化。
自回归 Transformer 在 Omniglot 字符集上涌现出了分类能力
接下来是 Transformer 的涌现能力,其使用的是自回归方法来分类 Omniglot 手写字符。研究者使用的实验设置是类似的:Omniglot 图像先由卷积层嵌入,然后以 [嵌入图像,图像类别标签] 配对组成序列的方式输入仅解码器的 Transformer,而该 Transformer 的训练目标是预测 Omniglot 类别标签。研究者是在长度为 L ∈ [1, 5] 的序列上测量图像分类性能,同样是通过子集准确度来度量:如果所有 L 图像都分类正确(图 9B)则子集准确度为 1,否则为 0。Causal Transformer 在正确分类 Omniglot 手写字符任务上似乎展现出了涌现能力(图 9C),该结果在定性分析上符合已发表论文中的涌现能力,比如大规模多任务语言理解(图 9A)。
图 9:在自回归 Transformer 中诱导出涌现的分类能力。(A) 一篇已发表论文中基于 MMLU 基准的涌现能力。(B) 随模型参数增多,使用自回归方法来分类 Omniglot 手写数字的 Transformer 的测试准确度也表现为增长。(C) 当将准确度重新定义为正确分类序列中的所有图像时,该指标更难被预测,这似乎说明诱导出了涌现能力。