ParScale:一种全新的大模型Scaling Law

简介: ParScale是一种新的模型扩展路线,通过并行计算增强模型能力,无需增加参数量。它引入多个并行流处理输入,动态聚合输出,显著提升性能,尤其在数学和编程任务中表现突出。相比传统方法,ParScale仅增加1/22的内存和1/6的延迟,适合边缘设备。研究还提出两阶段训练策略,降低训练成本。未来将探索更多模型架构和大数据场景下的应用潜力。

提升大模型智能水平,通常有两条主流的Scaling Law(扩展定律)路线:

一是扩展参数(Parameter Scaling),用更多模型参数来更细致地学习,进而提升性能;

二是扩展推理思考的时间(Inference-time Scaling),让模型思考更长时间,得出更智能的结果。

然而,更大的参数量导致模型对显存需求“爆炸式”增长,更长的推理时间在需要更多算力的同时也大大增加了模型的时延。能不能有一种新的 scaling 路线,不会带来显著的内存和时延增加,同时又适用于通用场景?

为此,我们提出了行扩展(Parallel Scaling,简称 ParScale)路线,在不增加模型参数的前提下,通过在训练和推理阶段引入多个并行流(parallel streams) ,将一个输入转换成多个输入,然后对它们进行前向传播,最后将结果合并为一个输出。实验证明,ParScale在小型预训练数据集和一系列小型模型上,它能带来显著的性能提升。

这一工作的新论文《Parallel Scaling Law for Language Models》已在arXiv上发表,你可以在GitHub上下载开源代码,或是在HuggingFace的Space上直接体验。


地址:

论文

GitHub

HuggingFace Demo


基本思想

无分类器引导 (CFG,Classifier-Free Guidance) ,是扩散模型推理阶段广泛使用的一种技术,类似的概念也存在自然语言处理 (NLP) 领域中。与使用单次前向传递的传统方法不同,CFG 在推理过程中使用两次前向传递:第一次是“正常输入”,后一次是“扰动后的输入”,然后根据预定的对比规则,进行输出融合,从而在单次传递输出上获得更好的性能。

我们从中获得了 ParScale 的最初灵感,并提出了 ParScale 的关键假设:

扩展并行计算(同时保持参数几乎不变)可以增强模型的能力,其效果与扩展参数类似。

具体而言,我们通过设计以下三步,验证 ParScale 的这一假设:

输入多样化变换 :给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;

并行处理 :将这些输入送入模型的不同路径中并行处理;

动态聚合输出 :使用可学习的权重对各路径输出进行加权融合,得到最终结果。

640 (20).png


通俗来说,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。ParScale 是一种结构化、多样化的智能增强机制,为大语言模型提供了一种不依赖参数增长的高效扩展路径。

实验设计与验证

根据理论分析,我们猜测 ParScale 的损失(loss)可能遵循类似 Chinchilla 扩展定律(模型大小和训练token 的数量应该以相等的比例扩展)的幂律关系,据此,我们在两个大规模语料库上(Stack-V2、The Pile)进行了大量预训练实验。

  • 并行流数P:1到8
  • 模型参数规模:500M到4.4B


640 (21).png


通过实验结果,我们拟合出一个新的扩展定律

Loss ≈ A / (N × log P)^α + E。

它表明:计算资源可以作为独立于参数的智能扩展维度,从而打破传统以参数为中心的扩展范式。

随后,我们从多个维度对 ParScale 的扩展定律进行了深入验证,包括:

拟合细节分析 :通过大量实验拟合出新的并行扩展公式,并计算其 R²、Huber Loss 等指标,验证理论推导的有效性;

loss 等高线图(Loss Contours)分析 :展示了在不同参数量和并行流数量组合下的模型性能变化趋势;

推理任务收益分析 :特别是在数学、编程等需要强推理能力的任务上,PARSCALE 表现出显著提升;

batch 大小对计算效率的影响 :对比了不同 batch 规模下内存占用与延迟表现,验证其在边缘部署场景中的优势。


640 (22).png


640 (23).png

640 (24).png


这些测试进一步支撑了 ParScale 可在不增加参数的前提下,通过增加并行流来提升模型性能的有效性和泛化能力。

在预训练完成后进入后训练阶段时,为了控制因并行流数量 P 增加而导致的训练成本上升,我们提出了一种新的两阶段后训练策略 :

第一阶段 :使用 1T token 进行传统训练,采用固定学习率;

第二阶段 :引入 ParScale 方法,在仅 20B token 的数据上进行微调,使用学习率退火策略。

该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,从而大幅降低了总体训练成本。


640 (25).png


为了验证 ParScale 对于大模型性能提升的有效度,我们进一步将 ParScale 应用于一个已经训了18T token 的Qwen-2.5 大模型上,并在两种设置下进行了验证:一是持续预训练(CPT),二是参数高效微调(PEFT)。


640 (26).png


结果显示,即便在这样一个已经经过高度训练的模型上, ParScale  仍能带来显著的性能提升,特别是在数学和编程类任务中。此外,PEFT 训练还展示出了动态并行拓展的前景:可以通过在不同的场合下使用不同的 P,从而快速地动态调整能力以及推理开销。


ParScale的优势与潜力

训练成本优化:两阶段策略降低资源消耗

两阶段后训练策略的核心思想是将资源密集型的主干参数训练集中在第一阶段完成,而在第二阶段只需调整少量新增参数(如 prefix 和 aggregation 层)即可适配并行扩展机制。这一策略,不仅大幅降低了总体训练成本,同时还保留了 ParScale  的性能增益。

比如,研究团队后续在多个下游任务中观察到,随着并行流值数量 P 越多,效果越好 ,且在需要强推理能力的任务中尤为显著。当P从1增加到8时,模型在代码生成任务中提升了4.3%,数学题提升了7.3%,常识任务提升了2.6%;当P=8时,数学题GSM8K的正确率提高了10%(相当于原本34%的提升)。

灵活部署:更适用于端侧设备与动态需求

通过分析不同batch的推理成本,我们发现,  ParScale  非常适合智能手机、智能汽车和机器人等资源匮乏的边缘设备,这些设备的查询通常很少,batch也很小。鉴于这些环境中的内存资源有限, ParScale  可以有效地利用小batch的内存和延迟优势。与实现相同性能提升的参数扩展相比,并行扩展只会带来 1/22 的内存增加和 1/6 的延迟增加。


640 (27).png


下一步

ParScale 是我们探索 LLM Scaling Law 的新尝试,目前的研究仍然在进行中。我们相信扩展计算量可以带来智能的涌现。展望未来,我们计划进一步在更多的模型架构以及更大的数据上进行尝试,从而更好地理解扩大并行计算能带来的收益。

相关文章
|
4天前
|
自然语言处理 数据可视化 API
解锁 Qwen3 的Agent能力,CookBook来咯!
Qwen3系列模型具备强大Agent能力,但从模型到Agent仍存技术难题。为此,我们推出基于Qwen-Agent框架的3个CookBook示例,展示如何让Qwen3丝滑调用MCP Server全过程。不论是本地部署还是API调用模型,开发者均可通过Qwen-Agent完成复杂任务。CookBook包括自然语言驱动数据库操作、云端高德API地理服务及文档转思维导图等功能。Qwen-Agent封装了工具调用模板和解析器,原生支持MCP协议,大幅降低开发成本。欢迎体验并反馈。
|
资源调度 分布式计算 安全
伏羲—阿里云分布式调度系统
在12月12日的云栖社区在线培训上,“飞天”分布式系统核心开发人员陶阳宇分享了《伏羲-阿里云分布式调度系统》。他主要从伏羲系统架构、任务调度、资源调度、容错机制、规模挑战、安全与性能隔离方面介绍了伏羲分布式系统架构和设计理念。
22544 0
|
4天前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
|
3天前
|
机器学习/深度学习 人工智能 算法
通义检索增强预训练框架MaskSearch:让AI更聪明地“找答案”
通义实验室开源了MaskSearch预训练框架,让AI具备“主动搜索+多步推理”能力,更精准回答复杂问题。该框架通过检索增强掩码预测(RAMP)任务,结合多智能体协同、强化学习及课程学习策略,显著提升小模型推理能力,在多跳问答任务中表现优异。相关论文与代码已发布,欢迎探索体验。
|
2月前
|
人工智能 运维 数据可视化
阿里云百炼 MCP服务使用教程合集
阿里云百炼推出首个全生命周期MCP服务,支持一键部署、无需运维,具备高可用与低成本特点。该服务提供多类型供给、低成本托管及全链路工具兼容,帮助企业快速构建专属智能体。MCP(模型上下文协议)作为标准化开源协议,助力大模型与外部工具高效交互。教程涵盖简单部署、GitHub运营、数据分析可视化及文档自动化等场景,助您快速上手。欢迎加入阿里云百炼生态,共同推动AI技术发展!
阿里云百炼 MCP服务使用教程合集
|
4天前
|
机器学习/深度学习 数据采集 人工智能
建模世界偏好:偏好建模中的Scaling Laws
本文探讨了人类偏好建模的可扩展性,揭示其遵循Scaling Law。通过大规模训练(1.5B-72B参数)Qwen 2.5模型,使用1500万对论坛偏好数据,发现测试损失随规模指数增长而线性下降。研究提出WorldPM(Modeling World Preference),作为统一的人类偏好表征方法,在客观与主观评估中展现优势。实验表明,WorldPM可显著提升样本效率和多维度性能,成为高效的人类偏好微调基座。同时,文章反思主观评估复杂性,建议放弃简单预设,让模型自主发现人类偏好的深层规律,推动AI对齐新方向。论文与代码已开源。
45 23
|
1月前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
2月前
|
人工智能 JavaScript 开发工具
MCP详解:背景、架构与应用
模型上下文协议(MCP)是由Anthropic提出的开源标准,旨在解决大语言模型与外部数据源和工具集成的难题。作为AI领域的“USB-C接口”,MCP通过标准化、双向通信通道连接模型与外部服务,支持资源访问、工具调用及提示模板交互。其架构基于客户端-服务器模型,提供Python、TypeScript等多语言SDK,方便开发者快速构建服务。MCP已广泛应用于文件系统、数据库、网页浏览等领域,并被阿里云百炼平台引入,助力快速搭建智能助手。未来,MCP有望成为连接大模型与现实世界的通用标准,推动AI生态繁荣发展。
1983 65
|
3天前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Qwen3:小而强,思深,行速
Qwen3(千问3)于北京时间4月29日凌晨发布,是Qwen系列大型语言模型的最新成员,具备全系列、开源最强、混合推理等特性。它包括两款MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)及六个Dense模型,支持119种语言。Qwen3在代码、数学和通用能力测试中超越行业顶尖模型,如DeepSeek-R1和Grok-3。其旗舰版Qwen3-235B-A22B仅需4张H20即可本地部署,成本为DeepSeek-R1的35%。此外,Qwen3原生支持思考模式与非思考模式切换,降低复杂任务门槛,并支持MCP协议优化Agent架构。