从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

简介: 【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律,通过分析80个语言模型构建通用缩放模型,预测LM性能。研究显示,模型能力可用低维空间表示,与计算量呈对数线性关系。通过主成分分析,他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能,低成本评估后训练干预效果。然而,模型局限性在于可能不适应未来显著不同的模型和任务,也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)

在人工智能领域,尤其是自然语言处理(NLP)中,语言模型(LM)的性能随着规模的扩大而变化是一个核心议题。理解和预测这种性能变化对于模型能力评估、基准测试和算法开发至关重要。近期,由斯坦福大学、多伦多大学和Vector Institute的研究人员联合发表的一篇论文,提出了一种新颖的“观测缩放律”(Observational Scaling Laws),为我们提供了一种在不同规模下预测语言模型性能的新方法。

该论文的核心思想是,通过分析约80个公开可用的语言模型,构建一个通用的缩放律,而无需对每个模型进行昂贵的训练。这种方法的提出,得益于研究人员对现有模型能力的深入分析和理解,他们发现尽管不同模型家族在训练计算效率和能力上存在显著差异,但这些差异可以用一个简单的、广义的缩放律来描述。该缩放律认为,语言模型的性能是低维能力空间的函数,而模型家族之间的差异仅在于它们将训练计算转换为能力的效率。

研究人员首先提出了一个假设,即存在一个低维的能力向量,能够从可观测的标准语言模型基准测试中提取出来,并与计算量呈对数线性关系。他们通过主成分分析(PCA)提取了少量的主成分(PC),这些主成分能够解释大部分的语言模型性能变化。例如,第一主成分(PC-1)代表了模型的“通用能力”,而第二主成分(PC-2)和第三主成分(PC-3)则分别强调了模型的“推理能力”和“编程能力”。

在验证了主成分分析的有效性之后,研究人员进一步展示了这些主成分与模型训练的计算量(如浮点运算次数,FLOPs)之间的对数线性关系。这一发现意味着,不同模型家族中的模型,尽管在训练效率上有所不同,但它们的能力可以通过一个统一的能力空间来描述,并且这个空间与计算量有着直接的联系。

利用观测缩放律,研究人员成功预测了复杂现象的缩放行为,例如,他们展示了一些被认为是“突现”的能力,实际上是可以通过小型模型准确预测的平滑S形曲线。此外,他们还展示了如何使用观测缩放律来预测像GPT-4这样的模型的代理性能,以及如何预测像思维链(Chain-of-Thought)和自我一致性(Self-Consistency)这样的后训练干预措施的影响。

这项工作的贡献在于提出了一种新的概念方法,即观测缩放律,它利用了计算、简单能力度量和复杂下游度量之间的可预测的对数线性关系。实证贡献包括确定了覆盖标准语言模型基准测试的少量能力度量,证明了这些度量在预测复杂语言模型能力方面的准确性,并选择了一组有用的模型家族,用于低成本的观测缩放分析。

尽管这项研究在理论和实践上都取得了显著的成果,但它也有一些局限性。首先,观测缩放律的构建依赖于现有的模型和基准测试,这意味着如果未来的模型或任务与现有的数据集有显著的不同,那么这些缩放律可能不再适用。其次,尽管观测缩放律提供了一种低成本的预测方法,但它可能无法完全捕捉到所有影响模型性能的因素,特别是那些与模型架构或训练数据特定相关的因素。

论文地址:https://arxiv.org/pdf/2405.10938

目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
178 2
|
2月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
57 1
|
2月前
|
数据处理
MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路
近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)
49 2
|
4月前
|
人工智能
ACL 2024 Oral:大模型也会被忽悠?揭秘AI的信念之旅
【8月更文挑战第28天】清华大学、上海交通大学、斯坦福大学和南洋理工大学的研究团队最新研究表明,即使是在训练过程中积累了大量知识的大语言模型(LLMs),如ChatGPT和GPT-4,在面对误导性信息时仍可能产生错误信念。研究者为此创建了Farm数据集,以系统性地生成误导信息并测试LLMs在说服性对话中的表现。结果显示,即使是先进如GPT-4,其信念也有20.7%的概率被改变。该研究不仅揭示了LLMs潜在的脆弱性,还提供了评估其鲁棒性的方法,对未来提升LLMs的安全性和准确性具有重要启示作用。论文详细内容可见[此处链接]。
61 5
|
机器学习/深度学习 人工智能 自然语言处理
本科毕业加入谷歌,还写了「思维链」开山之作,这位OpenAI新秀正为本科生答疑解惑
本科毕业加入谷歌,还写了「思维链」开山之作,这位OpenAI新秀正为本科生答疑解惑
131 0
|
机器学习/深度学习 人工智能 并行计算
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了
447 0
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
208 0
|
存储 Cloud Native 容灾
再创佳绩!阿里云4篇论文入选顶会FAST 2023
再创佳绩!阿里云4篇论文入选顶会FAST 2023
530 0
|
机器学习/深度学习 SQL 人工智能
7 Papers & Radios | 李德毅院士认知物理学前瞻性观点论文;AI从零开始学会玩我的世界
7 Papers & Radios | 李德毅院士认知物理学前瞻性观点论文;AI从零开始学会玩我的世界
|
机器学习/深度学习 人工智能 自然语言处理
朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics
朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics
163 0
下一篇
DataWorks