斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)

简介: 斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

预测:涌现能力应该主要出现在非线性 / 非连续度量上

为了测试第一个预测,研究者分析了在哪些指标上,不同的「任务 - 模型系列」配对是否会出现涌现能力。为了确定一个「任务 - 度量 - 模型系列」三元组是否可能展现出涌现能力,他们借用了论文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定义。令 y_i ∈ R 表示模型大小为 x_i ∈ R 时的模型性能,并使得 x_i < x_i+1,则涌现分数为:

结果研究者发现,BIG-Bench 使用的大多数度量中没有表现出涌现能力的「任务 - 模型系列」配对:在人们偏好的 39 个 BIG-Bench 度量中,至多 5 个展现出了涌现能力(图 5A)。这 5 个大都是非线性的 / 非连续的,如精确字符串匹配、多选择分级、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多项度量来评估模型的任务表现,因此在其它度量下缺乏涌现能力这一现象说明:当使用其它度量来评价模型输出时,涌现能力并不会出现。

由于涌现分数仅表明有涌现能力,因此研究者还进一步分析了论文《137 emergent abilities of large language models》中人工标注的「任务 - 度量 - 模型系列」三元组。人工标注的数据表明 39 个度量中仅有 4 个表现出了涌现能力(图 5B),并且它们中的 2 个就占到了所宣称的涌现能力的 92% 以上(图 5C)。多选择分级和精确字符串匹配。多选择分级是非连续的,精确字符串匹配是非线性的(在目标长度度量上的变化是近乎几何式的)。总体而言,这些结果说明涌现能力仅出现在非常少量的非线性和 / 或非连续度量上。
图 5:仅有少数度量会出现涌现能力。(A) 在人们偏好的 39 个 BIG-Bench 度量中,至多只有 5 个度量上可能出现了涌现能力。(B) 所引论文中人工标注的数据表明仅有 4 个人们偏好的度量表现出了涌现能力。(C) 涌现能力中 > 92% 都出现在以下两个度量之一上:多选择分级和精确字符串匹配。

预测:如果替代非线性 / 非连续度量,涌现能力应该会被消除

对于第二个预测,研究者分析了前文所引论文中人工标注的涌现能力。他们关注的是 LaMDA 系列,因为其输出可通过 BIG-Bench 获取,而其它模型系列的输出无法这样获取。在已经发表的 LaMDA 模型中,最小的有 20 亿个参数,但 BIG-Bench 中的许多 LaMDA 模型都小很多,而且研究者表示由于无法确定这些更小模型的来源,因此没有在分析中考虑它们。在分析中,研究者认定了在多选择分级度量上 LaMDA 在哪些任务上展现出了涌现能力,然后他们提出了问题:当使用另一个 BIG-Bench 度量 Brier 分数时,LaMDA 能否在同样的任务上展现出涌现能力。Brier 分数是一套严格适当(strictly proper)的评分规则,其度量的是互斥结果的预测;对于一个二元结果的预测,Brier 分数简化成了结果及其预测概率质量之间的均方误差。

研究者发现,当非连续度量多选择分级变成连续度量 Brier 分数时(图 6),LaMDA 的涌现能力消失了。这进一步说明涌现能力的成因并非是随规模增长而导致的模型行为的本质变化,而是对非连续度量的使用
图 6:在任务和模型系列保持不变的前提下改变 BIG-Bench 度量会导致涌现能力消失。上一行:当使用的是一个非连续度量(多选择分级)时,LaMDA 模型系列展现出了涌现能力。下一行:当使用的是一个连续的 BIG-Bench 度量(Brier 分数)时,LaMDA 模型系列在同样任务上不再有涌现能力。


检验三:诱导 DNN 出现涌现能力

研究者的观点是可以通过度量的选择来诱导模型产生涌现能力;为了证明这一点,他们展示了如何让不同架构(全连接、卷积、自注意力)的深度神经网络产生涌现能力。这里研究者重点关注的是视觉任务,原因有二。第一,人们现在主要关注大型语言模型的涌现能力,因为对于视觉模型而言,目前还没有观察到模型能力从无突然转变到有的现象。第二,某些视觉任务用大小适中的网络就足以解决,因此研究者可以完整构建出跨多个数量级规模的模型系列。

卷积网络涌现出对 MNIST 手写数字的分类能力

研究者首先诱导实现 LeNet 卷积神经网络系列涌现出分类能力,训练数据集是 MNIST 手写数字数据集。这个系列展现出了随参数数量增长,测试准确度平滑提升的现象(图 7B)。为了模拟有关涌现的论文中使用的准确度度量,这里使用的是子集准确度(subset accuracy):如果该网络从 K 个(独立的)测试数据中正确分类出了 K 个数据,那么该网络的子集准确度为 1,否则为 0。基于这一准确度定义,在 K 从 1 增长到 5 的设定中,该模型系列展现出了「涌现」能力,从而能够正确分类 MNIST 数字集,尤其是结合了模型大小的稀疏采样时(图 7C)。这个卷积系列的涌现分类能力在定性分析上符合已发表论文中的涌现能力,比如在 BIG-Bench 的地形测绘任务上的结果(图 7A)。
图 7:在卷积网络中诱导出涌现的 MNIST 分类能力。(A) 一篇已发表论文中的基于 BIG-Bench 地形测绘任务的涌现能力。(B) 在 MNIST 上训练的 LeNet 表现出:随模型参数数量增长,测试准确度展现出预测的、普遍的、S 形的增长。(C) 当把准确度重新定义成从 K 个独立测试数据中正确分类出 K 个时,这个新定义的度量会诱导出一种似乎在预料之外的变化。


非线性自动编码器在 CIFAR100 自然图像集上涌现出重建能力

为了凸显出研究者所选度量的锐利度是涌现能力的原因,并且为了表明这种锐利度不仅限于准确度等度量,研究者又诱导在 CIFAR100 自然图像集上训练的浅度(即单隐藏层)非线性自动编码器涌现出重建图像输入的能力。为此,他们刻意定义了一个新的用于衡量模型能力的不连续度量,该度量为平方重建误差低于固定阈值 c 的测试数据的平均数量:

其中 I (・) 是一个随机指示变量,x^n 是自动编码器对 x_n 的重建。研究者检视了自动编码器瓶颈单元的数量,然后发现随模型规模增长,网络的均方重建误差会表现出平滑的下降趋势(图 8B),但如果使用新定义的重建度量,对于选定的 c,这个自动编码器系列在重建该数据集上展现出的能力是锐利的和几乎不可预测的(图 8C),这个结果在定性分析上符合已发表论文中的涌现能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任务(图 8A)。
图 8:在浅度非线性自动编码器中诱导出涌现的重建能力。(A) 一篇已发表论文中的基于 BIG-Bench 周期性元素任务的涌现能力。(B) 在 CIFAR100 上训练的浅度非线性自动编码器展现出了平滑下降的均方重建误差。(C) 使用新定义的重建度量(公式 2)诱导出了不可预测的变化。

自回归 Transformer 在 Omniglot 字符集上涌现出了分类能力

接下来是 Transformer 的涌现能力,其使用的是自回归方法来分类 Omniglot 手写字符。研究者使用的实验设置是类似的:Omniglot 图像先由卷积层嵌入,然后以 [嵌入图像,图像类别标签] 配对组成序列的方式输入仅解码器的 Transformer,而该 Transformer 的训练目标是预测 Omniglot 类别标签。研究者是在长度为 L ∈ [1, 5] 的序列上测量图像分类性能,同样是通过子集准确度来度量:如果所有 L 图像都分类正确(图 9B)则子集准确度为 1,否则为 0。Causal Transformer 在正确分类 Omniglot 手写字符任务上似乎展现出了涌现能力(图 9C),该结果在定性分析上符合已发表论文中的涌现能力,比如大规模多任务语言理解(图 9A)。

图 9:在自回归 Transformer 中诱导出涌现的分类能力。(A) 一篇已发表论文中基于 MMLU 基准的涌现能力。(B) 随模型参数增多,使用自回归方法来分类 Omniglot 手写数字的 Transformer 的测试准确度也表现为增长。(C) 当将准确度重新定义为正确分类序列中的所有图像时,该指标更难被预测,这似乎说明诱导出了涌现能力。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
48 1
|
2月前
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
54 6
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
参加2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛的经验,包括使用DPCNN、HAN、TextRCNN、CapsuleNet和TextRCNNAttention等传统深度学习模型的方案实现,以及提分技巧,如多个模型的提交文件投票融合和生成伪标签的方法。
37 0
|
6月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
62 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
92 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
98 0
|
6月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
277 0
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
333 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
179 0