提升大模型智能水平,通常有两条主流的Scaling Law(扩展定律)路线:
一是扩展参数(Parameter Scaling),用更多模型参数来更细致地学习,进而提升性能;
二是扩展推理思考的时间(Inference-time Scaling),让模型思考更长时间,得出更智能的结果。
然而,更大的参数量导致模型对显存需求“爆炸式”增长,更长的推理时间在需要更多算力的同时也大大增加了模型的时延。能不能有一种新的 scaling 路线,不会带来显著的内存和时延增加,同时又适用于通用场景?
为此,我们提出了并行扩展(Parallel Scaling,简称 ParScale)路线,在不增加模型参数的前提下,通过在训练和推理阶段引入多个并行流(parallel streams) ,将一个输入转换成多个输入,然后对它们进行前向传播,最后将结果合并为一个输出。实验证明,ParScale在小型预训练数据集和一系列小型模型上,它能带来显著的性能提升。
这一工作的新论文《Parallel Scaling Law for Language Models》已在arXiv上发表,你可以在GitHub上下载开源代码,或是在HuggingFace的Space上直接体验。
地址:
基本思想
无分类器引导 (CFG,Classifier-Free Guidance) ,是扩散模型推理阶段广泛使用的一种技术,类似的概念也存在自然语言处理 (NLP) 领域中。与使用单次前向传递的传统方法不同,CFG 在推理过程中使用两次前向传递:第一次是“正常输入”,后一次是“扰动后的输入”,然后根据预定的对比规则,进行输出融合,从而在单次传递输出上获得更好的性能。
我们从中获得了 ParScale 的最初灵感,并提出了 ParScale 的关键假设:
扩展并行计算(同时保持参数几乎不变)可以增强模型的能力,其效果与扩展参数类似。
具体而言,我们通过设计以下三步,验证 ParScale 的这一假设:
输入多样化变换 :给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;
并行处理 :将这些输入送入模型的不同路径中并行处理;
动态聚合输出 :使用可学习的权重对各路径输出进行加权融合,得到最终结果。
通俗来说,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。ParScale 是一种结构化、多样化的智能增强机制,为大语言模型提供了一种不依赖参数增长的高效扩展路径。
实验设计与验证
根据理论分析,我们猜测 ParScale 的损失(loss)可能遵循类似 Chinchilla 扩展定律(模型大小和训练token 的数量应该以相等的比例扩展)的幂律关系,据此,我们在两个大规模语料库上(Stack-V2、The Pile)进行了大量预训练实验。
- 并行流数P:1到8
- 模型参数规模:500M到4.4B
通过实验结果,我们拟合出一个新的扩展定律:
Loss ≈ A / (N × log P)^α + E。
它表明:计算资源可以作为独立于参数的智能扩展维度,从而打破传统以参数为中心的扩展范式。
随后,我们从多个维度对 ParScale 的扩展定律进行了深入验证,包括:
拟合细节分析 :通过大量实验拟合出新的并行扩展公式,并计算其 R²、Huber Loss 等指标,验证理论推导的有效性;
loss 等高线图(Loss Contours)分析 :展示了在不同参数量和并行流数量组合下的模型性能变化趋势;
推理任务收益分析 :特别是在数学、编程等需要强推理能力的任务上,PARSCALE 表现出显著提升;
batch 大小对计算效率的影响 :对比了不同 batch 规模下内存占用与延迟表现,验证其在边缘部署场景中的优势。
这些测试进一步支撑了 ParScale 可在不增加参数的前提下,通过增加并行流来提升模型性能的有效性和泛化能力。
在预训练完成后进入后训练阶段时,为了控制因并行流数量 P 增加而导致的训练成本上升,我们提出了一种新的两阶段后训练策略 :
第一阶段 :使用 1T token 进行传统训练,采用固定学习率;
第二阶段 :引入 ParScale 方法,在仅 20B token 的数据上进行微调,使用学习率退火策略。
该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,从而大幅降低了总体训练成本。
为了验证 ParScale 对于大模型性能提升的有效度,我们进一步将 ParScale 应用于一个已经训了18T token 的Qwen-2.5 大模型上,并在两种设置下进行了验证:一是持续预训练(CPT),二是参数高效微调(PEFT)。
结果显示,即便在这样一个已经经过高度训练的模型上, ParScale 仍能带来显著的性能提升,特别是在数学和编程类任务中。此外,PEFT 训练还展示出了动态并行拓展的前景:可以通过在不同的场合下使用不同的 P,从而快速地动态调整能力以及推理开销。
ParScale的优势与潜力
训练成本优化:两阶段策略降低资源消耗
两阶段后训练策略的核心思想是将资源密集型的主干参数训练集中在第一阶段完成,而在第二阶段只需调整少量新增参数(如 prefix 和 aggregation 层)即可适配并行扩展机制。这一策略,不仅大幅降低了总体训练成本,同时还保留了 ParScale 的性能增益。
比如,研究团队后续在多个下游任务中观察到,随着并行流值数量 P 越多,效果越好 ,且在需要强推理能力的任务中尤为显著。当P从1增加到8时,模型在代码生成任务中提升了4.3%,数学题提升了7.3%,常识任务提升了2.6%;当P=8时,数学题GSM8K的正确率提高了10%(相当于原本34%的提升)。
灵活部署:更适用于端侧设备与动态需求
通过分析不同batch的推理成本,我们发现, ParScale 非常适合智能手机、智能汽车和机器人等资源匮乏的边缘设备,这些设备的查询通常很少,batch也很小。鉴于这些环境中的内存资源有限, ParScale 可以有效地利用小batch的内存和延迟优势。与实现相同性能提升的参数扩展相比,并行扩展只会带来 1/22 的内存增加和 1/6 的延迟增加。
下一步
ParScale 是我们探索 LLM Scaling Law 的新尝试,目前的研究仍然在进行中。我们相信扩展计算量可以带来智能的涌现。展望未来,我们计划进一步在更多的模型架构以及更大的数据上进行尝试,从而更好地理解扩大并行计算能带来的收益。