从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

简介: 【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律,通过分析80个语言模型构建通用缩放模型,预测LM性能。研究显示,模型能力可用低维空间表示,与计算量呈对数线性关系。通过主成分分析,他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能,低成本评估后训练干预效果。然而,模型局限性在于可能不适应未来显著不同的模型和任务,也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)

在人工智能领域,尤其是自然语言处理(NLP)中,语言模型(LM)的性能随着规模的扩大而变化是一个核心议题。理解和预测这种性能变化对于模型能力评估、基准测试和算法开发至关重要。近期,由斯坦福大学、多伦多大学和Vector Institute的研究人员联合发表的一篇论文,提出了一种新颖的“观测缩放律”(Observational Scaling Laws),为我们提供了一种在不同规模下预测语言模型性能的新方法。

该论文的核心思想是,通过分析约80个公开可用的语言模型,构建一个通用的缩放律,而无需对每个模型进行昂贵的训练。这种方法的提出,得益于研究人员对现有模型能力的深入分析和理解,他们发现尽管不同模型家族在训练计算效率和能力上存在显著差异,但这些差异可以用一个简单的、广义的缩放律来描述。该缩放律认为,语言模型的性能是低维能力空间的函数,而模型家族之间的差异仅在于它们将训练计算转换为能力的效率。

研究人员首先提出了一个假设,即存在一个低维的能力向量,能够从可观测的标准语言模型基准测试中提取出来,并与计算量呈对数线性关系。他们通过主成分分析(PCA)提取了少量的主成分(PC),这些主成分能够解释大部分的语言模型性能变化。例如,第一主成分(PC-1)代表了模型的“通用能力”,而第二主成分(PC-2)和第三主成分(PC-3)则分别强调了模型的“推理能力”和“编程能力”。

在验证了主成分分析的有效性之后,研究人员进一步展示了这些主成分与模型训练的计算量(如浮点运算次数,FLOPs)之间的对数线性关系。这一发现意味着,不同模型家族中的模型,尽管在训练效率上有所不同,但它们的能力可以通过一个统一的能力空间来描述,并且这个空间与计算量有着直接的联系。

利用观测缩放律,研究人员成功预测了复杂现象的缩放行为,例如,他们展示了一些被认为是“突现”的能力,实际上是可以通过小型模型准确预测的平滑S形曲线。此外,他们还展示了如何使用观测缩放律来预测像GPT-4这样的模型的代理性能,以及如何预测像思维链(Chain-of-Thought)和自我一致性(Self-Consistency)这样的后训练干预措施的影响。

这项工作的贡献在于提出了一种新的概念方法,即观测缩放律,它利用了计算、简单能力度量和复杂下游度量之间的可预测的对数线性关系。实证贡献包括确定了覆盖标准语言模型基准测试的少量能力度量,证明了这些度量在预测复杂语言模型能力方面的准确性,并选择了一组有用的模型家族,用于低成本的观测缩放分析。

尽管这项研究在理论和实践上都取得了显著的成果,但它也有一些局限性。首先,观测缩放律的构建依赖于现有的模型和基准测试,这意味着如果未来的模型或任务与现有的数据集有显著的不同,那么这些缩放律可能不再适用。其次,尽管观测缩放律提供了一种低成本的预测方法,但它可能无法完全捕捉到所有影响模型性能的因素,特别是那些与模型架构或训练数据特定相关的因素。

论文地址:https://arxiv.org/pdf/2405.10938

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
160 2
|
2天前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
9 2
|
1月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
40 1
|
1月前
|
数据处理
MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路
近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)
33 2
|
2月前
|
自然语言处理
从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊
【9月更文挑战第12天】近年来,抗体药物在生物医药领域展现出巨大潜力,但其高昂的研发成本和漫长周期成为瓶颈。为此,腾讯与北京大学合作开发了PALM-H3,这是一种基于预训练大语言模型的创新抗体设计方法。PALM-H3将抗体序列视为语言,利用Roformer模型学习其生成规律,实现从头设计高亲和力抗体,不依赖自然抗体,大幅提高研发效率和灵活性。此外,该方法还可广泛应用于疫苗设计和蛋白质工程等领域,加速新药上市。然而,确保抗体体内稳定性和安全性仍是挑战。论文详见:https://www.nature.com/articles/s41467-024-50903-y
48 1
|
3月前
|
人工智能
ACL 2024 Oral:大模型也会被忽悠?揭秘AI的信念之旅
【8月更文挑战第28天】清华大学、上海交通大学、斯坦福大学和南洋理工大学的研究团队最新研究表明,即使是在训练过程中积累了大量知识的大语言模型(LLMs),如ChatGPT和GPT-4,在面对误导性信息时仍可能产生错误信念。研究者为此创建了Farm数据集,以系统性地生成误导信息并测试LLMs在说服性对话中的表现。结果显示,即使是先进如GPT-4,其信念也有20.7%的概率被改变。该研究不仅揭示了LLMs潜在的脆弱性,还提供了评估其鲁棒性的方法,对未来提升LLMs的安全性和准确性具有重要启示作用。论文详细内容可见[此处链接]。
54 5
|
3月前
|
机器学习/深度学习 算法
DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元
【8月更文挑战第25天】近期,Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文,已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中,如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究,包括训练了数以万计的不同规模的模型,提出了一种新的参数化视角及Adam-atan2优化器版本。然而,这项研究的成本高达1290万美元,引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。
49 3
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
199 0
|
机器学习/深度学习 自然语言处理 算法
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
137 0
|
机器学习/深度学习 算法 自动驾驶
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
195 0