ParScale:一种全新的大模型Scaling Law

简介: ParScale是一种新的模型扩展路线,通过并行计算增强模型能力,无需增加参数量。它引入多个并行流处理输入,动态聚合输出,显著提升性能,尤其在数学和编程任务中表现突出。相比传统方法,ParScale仅增加1/22的内存和1/6的延迟,适合边缘设备。研究还提出两阶段训练策略,降低训练成本。未来将探索更多模型架构和大数据场景下的应用潜力。

提升大模型智能水平,通常有两条主流的Scaling Law(扩展定律)路线:

一是扩展参数(Parameter Scaling),用更多模型参数来更细致地学习,进而提升性能;

二是扩展推理思考的时间(Inference-time Scaling),让模型思考更长时间,得出更智能的结果。

然而,更大的参数量导致模型对显存需求“爆炸式”增长,更长的推理时间在需要更多算力的同时也大大增加了模型的时延。能不能有一种新的 scaling 路线,不会带来显著的内存和时延增加,同时又适用于通用场景?

为此,我们提出了行扩展(Parallel Scaling,简称 ParScale)路线,在不增加模型参数的前提下,通过在训练和推理阶段引入多个并行流(parallel streams) ,将一个输入转换成多个输入,然后对它们进行前向传播,最后将结果合并为一个输出。实验证明,ParScale在小型预训练数据集和一系列小型模型上,它能带来显著的性能提升。

这一工作的新论文《Parallel Scaling Law for Language Models》已在arXiv上发表,你可以在GitHub上下载开源代码,或是在HuggingFace的Space上直接体验。


地址:

论文

GitHub

HuggingFace Demo


基本思想

无分类器引导 (CFG,Classifier-Free Guidance) ,是扩散模型推理阶段广泛使用的一种技术,类似的概念也存在自然语言处理 (NLP) 领域中。与使用单次前向传递的传统方法不同,CFG 在推理过程中使用两次前向传递:第一次是“正常输入”,后一次是“扰动后的输入”,然后根据预定的对比规则,进行输出融合,从而在单次传递输出上获得更好的性能。

我们从中获得了 ParScale 的最初灵感,并提出了 ParScale 的关键假设:

扩展并行计算(同时保持参数几乎不变)可以增强模型的能力,其效果与扩展参数类似。

具体而言,我们通过设计以下三步,验证 ParScale 的这一假设:

输入多样化变换 :给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;

并行处理 :将这些输入送入模型的不同路径中并行处理;

动态聚合输出 :使用可学习的权重对各路径输出进行加权融合,得到最终结果。

640 (20).png


通俗来说,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。ParScale 是一种结构化、多样化的智能增强机制,为大语言模型提供了一种不依赖参数增长的高效扩展路径。

实验设计与验证

根据理论分析,我们猜测 ParScale 的损失(loss)可能遵循类似 Chinchilla 扩展定律(模型大小和训练token 的数量应该以相等的比例扩展)的幂律关系,据此,我们在两个大规模语料库上(Stack-V2、The Pile)进行了大量预训练实验。

  • 并行流数P:1到8
  • 模型参数规模:500M到4.4B


640 (21).png


通过实验结果,我们拟合出一个新的扩展定律

Loss ≈ A / (N × log P)^α + E。

它表明:计算资源可以作为独立于参数的智能扩展维度,从而打破传统以参数为中心的扩展范式。

随后,我们从多个维度对 ParScale 的扩展定律进行了深入验证,包括:

拟合细节分析 :通过大量实验拟合出新的并行扩展公式,并计算其 R²、Huber Loss 等指标,验证理论推导的有效性;

loss 等高线图(Loss Contours)分析 :展示了在不同参数量和并行流数量组合下的模型性能变化趋势;

推理任务收益分析 :特别是在数学、编程等需要强推理能力的任务上,PARSCALE 表现出显著提升;

batch 大小对计算效率的影响 :对比了不同 batch 规模下内存占用与延迟表现,验证其在边缘部署场景中的优势。


640 (22).png


640 (23).png

640 (24).png


这些测试进一步支撑了 ParScale 可在不增加参数的前提下,通过增加并行流来提升模型性能的有效性和泛化能力。

在预训练完成后进入后训练阶段时,为了控制因并行流数量 P 增加而导致的训练成本上升,我们提出了一种新的两阶段后训练策略 :

第一阶段 :使用 1T token 进行传统训练,采用固定学习率;

第二阶段 :引入 ParScale 方法,在仅 20B token 的数据上进行微调,使用学习率退火策略。

该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,从而大幅降低了总体训练成本。


640 (25).png


为了验证 ParScale 对于大模型性能提升的有效度,我们进一步将 ParScale 应用于一个已经训了18T token 的Qwen-2.5 大模型上,并在两种设置下进行了验证:一是持续预训练(CPT),二是参数高效微调(PEFT)。


640 (26).png


结果显示,即便在这样一个已经经过高度训练的模型上, ParScale  仍能带来显著的性能提升,特别是在数学和编程类任务中。此外,PEFT 训练还展示出了动态并行拓展的前景:可以通过在不同的场合下使用不同的 P,从而快速地动态调整能力以及推理开销。


ParScale的优势与潜力

训练成本优化:两阶段策略降低资源消耗

两阶段后训练策略的核心思想是将资源密集型的主干参数训练集中在第一阶段完成,而在第二阶段只需调整少量新增参数(如 prefix 和 aggregation 层)即可适配并行扩展机制。这一策略,不仅大幅降低了总体训练成本,同时还保留了 ParScale  的性能增益。

比如,研究团队后续在多个下游任务中观察到,随着并行流值数量 P 越多,效果越好 ,且在需要强推理能力的任务中尤为显著。当P从1增加到8时,模型在代码生成任务中提升了4.3%,数学题提升了7.3%,常识任务提升了2.6%;当P=8时,数学题GSM8K的正确率提高了10%(相当于原本34%的提升)。

灵活部署:更适用于端侧设备与动态需求

通过分析不同batch的推理成本,我们发现,  ParScale  非常适合智能手机、智能汽车和机器人等资源匮乏的边缘设备,这些设备的查询通常很少,batch也很小。鉴于这些环境中的内存资源有限, ParScale  可以有效地利用小batch的内存和延迟优势。与实现相同性能提升的参数扩展相比,并行扩展只会带来 1/22 的内存增加和 1/6 的延迟增加。


640 (27).png


下一步

ParScale 是我们探索 LLM Scaling Law 的新尝试,目前的研究仍然在进行中。我们相信扩展计算量可以带来智能的涌现。展望未来,我们计划进一步在更多的模型架构以及更大的数据上进行尝试,从而更好地理解扩大并行计算能带来的收益。

相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
视觉感知RAG×多模态推理×强化学习=VRAG-RL
通义实验室自然语言智能团队发布并开源了VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。它能像人一样“边看边想”,通过粗到细的视觉仿生感知机制,逐步聚焦关键区域,精准提取信息。VRAG-RL结合强化学习与多专家采样策略,优化检索与推理路径,在多个视觉语言基准数据集上表现出色,显著提升准确性和效率。项目已发布技术方案并开源代码,支持快速部署和二次开发。
631 11
|
编解码 数据安全/隐私保护
PHP-FFMpeg 操作音视频
快速掌握音视频操作神器
337 0
PHP-FFMpeg 操作音视频
|
27天前
|
安全 测试技术 API
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
Coding Agent常因“过程违规”遭诟病,如无视指令、破坏规范。MiniMax推出OctoCodingBench,首创面向工程可靠性的过程评估体系,揭示当前模型在多规则协同下成功率极低,呼吁行业关注“过程正确性”,推动Agent从能用走向可用。
326 5
|
8月前
|
自然语言处理 数据可视化 API
解锁 Qwen3 的Agent能力,CookBook来咯!
Qwen3系列模型具备强大Agent能力,但从模型到Agent仍存技术难题。为此,我们推出基于Qwen-Agent框架的3个CookBook示例,展示如何让Qwen3丝滑调用MCP Server全过程。不论是本地部署还是API调用模型,开发者均可通过Qwen-Agent完成复杂任务。CookBook包括自然语言驱动数据库操作、云端高德API地理服务及文档转思维导图等功能。Qwen-Agent封装了工具调用模板和解析器,原生支持MCP协议,大幅降低开发成本。欢迎体验并反馈。
946 1
就是要你懂负载均衡--lvs和转发模式
> 本文希望阐述清楚LVS的各种转发模式,以及他们的工作流程和优缺点,同时从网络包的流转原理上解释清楚优缺点的来由,并结合阿里云的slb来说明优缺点。 如果对网络包是怎么流转的不太清楚,推荐先看这篇基础:[程序员的网络知识 -- 一个网络包的旅程](https://www.atatech.org/articles/80573) ,对后面理解LVS的各个转发模式非常有帮助。
13947 0
|
9月前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
8588 4
全新开源通义千问Qwen3,它来了!
|
8月前
|
API 双11 数据安全/隐私保护
|
安全 网络安全 网络架构
什么是端口转发?什么是端口映射?如何设置端口映射
端口映射与端口转发是网络配置中两个常被混淆的概念。端口映射是指将外部网络请求通过路由器转发至内部网络特定主机的过程,增强了内网安全性。而端口转发则是指路由器依据端口将外部请求定向至具体设备,实现内外网通信。两者虽相似,但应用场景和原理有所不同。通过工具如花生壳,可轻松设置端口映射,实现外网访问内网服务。
2840 1
|
12月前
|
云安全 存储 人工智能
美的X阿里云:加速出海!
美的X阿里云:加速出海!
506 4
|
存储 算法 调度
深入理解操作系统:进程调度的算法与实现
【8月更文挑战第31天】在操作系统的核心,进程调度扮演着关键角色,它决定了哪个进程将获得CPU的使用权。本文不仅剖析了进程调度的重要性和基本概念,还通过实际代码示例,展示了如何实现一个简单的调度算法。我们将从理论到实践,一步步构建起对进程调度的理解,让读者能够把握操作系统中这一复杂而精妙的部分。

热门文章

最新文章