从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐-阿里云开发者社区

从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

2024-06-03 57

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第3天】华人博士生团队联合斯坦福、多伦多大学和Vector Institute提出观测缩放律，通过分析80个语言模型构建通用缩放模型，预测LM性能。研究显示，模型能力可用低维空间表示，与计算量呈对数线性关系。通过主成分分析，他们揭示了模型的通用、推理和编程能力。此方法能预测复杂现象和未来模型如GPT-4的性能，低成本评估后训练干预效果。然而，模型局限性在于可能不适应未来显著不同的模型和任务，也无法完全考虑所有影响性能的因素。[链接](https://arxiv.org/pdf/2405.10938)

在人工智能领域，尤其是自然语言处理（NLP）中，语言模型（LM）的性能随着规模的扩大而变化是一个核心议题。理解和预测这种性能变化对于模型能力评估、基准测试和算法开发至关重要。近期，由斯坦福大学、多伦多大学和Vector Institute的研究人员联合发表的一篇论文，提出了一种新颖的“观测缩放律”（Observational Scaling Laws），为我们提供了一种在不同规模下预测语言模型性能的新方法。

该论文的核心思想是，通过分析约80个公开可用的语言模型，构建一个通用的缩放律，而无需对每个模型进行昂贵的训练。这种方法的提出，得益于研究人员对现有模型能力的深入分析和理解，他们发现尽管不同模型家族在训练计算效率和能力上存在显著差异，但这些差异可以用一个简单的、广义的缩放律来描述。该缩放律认为，语言模型的性能是低维能力空间的函数，而模型家族之间的差异仅在于它们将训练计算转换为能力的效率。

研究人员首先提出了一个假设，即存在一个低维的能力向量，能够从可观测的标准语言模型基准测试中提取出来，并与计算量呈对数线性关系。他们通过主成分分析（PCA）提取了少量的主成分（PC），这些主成分能够解释大部分的语言模型性能变化。例如，第一主成分（PC-1）代表了模型的“通用能力”，而第二主成分（PC-2）和第三主成分（PC-3）则分别强调了模型的“推理能力”和“编程能力”。

在验证了主成分分析的有效性之后，研究人员进一步展示了这些主成分与模型训练的计算量（如浮点运算次数，FLOPs）之间的对数线性关系。这一发现意味着，不同模型家族中的模型，尽管在训练效率上有所不同，但它们的能力可以通过一个统一的能力空间来描述，并且这个空间与计算量有着直接的联系。

利用观测缩放律，研究人员成功预测了复杂现象的缩放行为，例如，他们展示了一些被认为是“突现”的能力，实际上是可以通过小型模型准确预测的平滑S形曲线。此外，他们还展示了如何使用观测缩放律来预测像GPT-4这样的模型的代理性能，以及如何预测像思维链（Chain-of-Thought）和自我一致性（Self-Consistency）这样的后训练干预措施的影响。

这项工作的贡献在于提出了一种新的概念方法，即观测缩放律，它利用了计算、简单能力度量和复杂下游度量之间的可预测的对数线性关系。实证贡献包括确定了覆盖标准语言模型基准测试的少量能力度量，证明了这些度量在预测复杂语言模型能力方面的准确性，并选择了一组有用的模型家族，用于低成本的观测缩放分析。

尽管这项研究在理论和实践上都取得了显著的成果，但它也有一些局限性。首先，观测缩放律的构建依赖于现有的模型和基准测试，这意味着如果未来的模型或任务与现有的数据集有显著的不同，那么这些缩放律可能不再适用。其次，尽管观测缩放律提供了一种低成本的预测方法，但它可能无法完全捕捉到所有影响模型性能的因素，特别是那些与模型架构或训练数据特定相关的因素。

论文地址：https://arxiv.org/pdf/2405.10938

从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

热门文章

最新文章

相关课程

相关电子书

相关实验场景