ParScale:一种全新的大模型Scaling Law

简介: ParScale是一种新的模型扩展路线,通过并行计算增强模型能力,无需增加参数量。它引入多个并行流处理输入,动态聚合输出,显著提升性能,尤其在数学和编程任务中表现突出。相比传统方法,ParScale仅增加1/22的内存和1/6的延迟,适合边缘设备。研究还提出两阶段训练策略,降低训练成本。未来将探索更多模型架构和大数据场景下的应用潜力。

提升大模型智能水平,通常有两条主流的Scaling Law(扩展定律)路线:

一是扩展参数(Parameter Scaling),用更多模型参数来更细致地学习,进而提升性能;

二是扩展推理思考的时间(Inference-time Scaling),让模型思考更长时间,得出更智能的结果。

然而,更大的参数量导致模型对显存需求“爆炸式”增长,更长的推理时间在需要更多算力的同时也大大增加了模型的时延。能不能有一种新的 scaling 路线,不会带来显著的内存和时延增加,同时又适用于通用场景?

为此,我们提出了行扩展(Parallel Scaling,简称 ParScale)路线,在不增加模型参数的前提下,通过在训练和推理阶段引入多个并行流(parallel streams) ,将一个输入转换成多个输入,然后对它们进行前向传播,最后将结果合并为一个输出。实验证明,ParScale在小型预训练数据集和一系列小型模型上,它能带来显著的性能提升。

这一工作的新论文《Parallel Scaling Law for Language Models》已在arXiv上发表,你可以在GitHub上下载开源代码,或是在HuggingFace的Space上直接体验。


地址:

论文

GitHub

HuggingFace Demo


基本思想

无分类器引导 (CFG,Classifier-Free Guidance) ,是扩散模型推理阶段广泛使用的一种技术,类似的概念也存在自然语言处理 (NLP) 领域中。与使用单次前向传递的传统方法不同,CFG 在推理过程中使用两次前向传递:第一次是“正常输入”,后一次是“扰动后的输入”,然后根据预定的对比规则,进行输出融合,从而在单次传递输出上获得更好的性能。

我们从中获得了 ParScale 的最初灵感,并提出了 ParScale 的关键假设:

扩展并行计算(同时保持参数几乎不变)可以增强模型的能力,其效果与扩展参数类似。

具体而言,我们通过设计以下三步,验证 ParScale 的这一假设:

输入多样化变换 :给每个输入添加 P 个不同的可学习前缀,使模型能从多个视角理解和处理同一任务;

并行处理 :将这些输入送入模型的不同路径中并行处理;

动态聚合输出 :使用可学习的权重对各路径输出进行加权融合,得到最终结果。

640 (20).png


通俗来说,ParScale 的基本思想,不是让模型对同一个问题反复回答,而是让模型“多角度”进行回答,再通过动态加权融合回答,得出更聪明的答案。ParScale 是一种结构化、多样化的智能增强机制,为大语言模型提供了一种不依赖参数增长的高效扩展路径。

实验设计与验证

根据理论分析,我们猜测 ParScale 的损失(loss)可能遵循类似 Chinchilla 扩展定律(模型大小和训练token 的数量应该以相等的比例扩展)的幂律关系,据此,我们在两个大规模语料库上(Stack-V2、The Pile)进行了大量预训练实验。

  • 并行流数P:1到8
  • 模型参数规模:500M到4.4B


640 (21).png


通过实验结果,我们拟合出一个新的扩展定律

Loss ≈ A / (N × log P)^α + E。

它表明:计算资源可以作为独立于参数的智能扩展维度,从而打破传统以参数为中心的扩展范式。

随后,我们从多个维度对 ParScale 的扩展定律进行了深入验证,包括:

拟合细节分析 :通过大量实验拟合出新的并行扩展公式,并计算其 R²、Huber Loss 等指标,验证理论推导的有效性;

loss 等高线图(Loss Contours)分析 :展示了在不同参数量和并行流数量组合下的模型性能变化趋势;

推理任务收益分析 :特别是在数学、编程等需要强推理能力的任务上,PARSCALE 表现出显著提升;

batch 大小对计算效率的影响 :对比了不同 batch 规模下内存占用与延迟表现,验证其在边缘部署场景中的优势。


640 (22).png


640 (23).png

640 (24).png


这些测试进一步支撑了 ParScale 可在不增加参数的前提下,通过增加并行流来提升模型性能的有效性和泛化能力。

在预训练完成后进入后训练阶段时,为了控制因并行流数量 P 增加而导致的训练成本上升,我们提出了一种新的两阶段后训练策略 :

第一阶段 :使用 1T token 进行传统训练,采用固定学习率;

第二阶段 :引入 ParScale 方法,在仅 20B token 的数据上进行微调,使用学习率退火策略。

该策略将资源密集型的训练任务集中在第一阶段,而在第二阶段只需少量数据即可完成对并行扩展机制的有效适配,从而大幅降低了总体训练成本。


640 (25).png


为了验证 ParScale 对于大模型性能提升的有效度,我们进一步将 ParScale 应用于一个已经训了18T token 的Qwen-2.5 大模型上,并在两种设置下进行了验证:一是持续预训练(CPT),二是参数高效微调(PEFT)。


640 (26).png


结果显示,即便在这样一个已经经过高度训练的模型上, ParScale  仍能带来显著的性能提升,特别是在数学和编程类任务中。此外,PEFT 训练还展示出了动态并行拓展的前景:可以通过在不同的场合下使用不同的 P,从而快速地动态调整能力以及推理开销。


ParScale的优势与潜力

训练成本优化:两阶段策略降低资源消耗

两阶段后训练策略的核心思想是将资源密集型的主干参数训练集中在第一阶段完成,而在第二阶段只需调整少量新增参数(如 prefix 和 aggregation 层)即可适配并行扩展机制。这一策略,不仅大幅降低了总体训练成本,同时还保留了 ParScale  的性能增益。

比如,研究团队后续在多个下游任务中观察到,随着并行流值数量 P 越多,效果越好 ,且在需要强推理能力的任务中尤为显著。当P从1增加到8时,模型在代码生成任务中提升了4.3%,数学题提升了7.3%,常识任务提升了2.6%;当P=8时,数学题GSM8K的正确率提高了10%(相当于原本34%的提升)。

灵活部署:更适用于端侧设备与动态需求

通过分析不同batch的推理成本,我们发现,  ParScale  非常适合智能手机、智能汽车和机器人等资源匮乏的边缘设备,这些设备的查询通常很少,batch也很小。鉴于这些环境中的内存资源有限, ParScale  可以有效地利用小batch的内存和延迟优势。与实现相同性能提升的参数扩展相比,并行扩展只会带来 1/22 的内存增加和 1/6 的延迟增加。


640 (27).png


下一步

ParScale 是我们探索 LLM Scaling Law 的新尝试,目前的研究仍然在进行中。我们相信扩展计算量可以带来智能的涌现。展望未来,我们计划进一步在更多的模型架构以及更大的数据上进行尝试,从而更好地理解扩大并行计算能带来的收益。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
视觉感知RAG×多模态推理×强化学习=VRAG-RL
通义实验室自然语言智能团队发布并开源了VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。它能像人一样“边看边想”,通过粗到细的视觉仿生感知机制,逐步聚焦关键区域,精准提取信息。VRAG-RL结合强化学习与多专家采样策略,优化检索与推理路径,在多个视觉语言基准数据集上表现出色,显著提升准确性和效率。项目已发布技术方案并开源代码,支持快速部署和二次开发。
420 11
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。
1670 7
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
|
5月前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
756 9
|
4月前
|
人工智能
真·零门槛!原来手搓AI应用这么简单
这是一篇关于如何创作小红书爆款文案的专业指南,涵盖标题技巧、正文结构、情绪表达及关键词运用。内容包括高吸引力标题公式、正文六种开篇模板、关键词库和写作规则,帮助用户高效打造高转化文案。
350 1
|
13天前
|
人工智能 物联网 测试技术
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
414 6
|
13天前
|
搜索推荐 API Python
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
今日发布DeepSeek-V3.1,支持混合推理架构,提升思考效率与Agent能力。编程与搜索智能体表现显著增强,API已升级并支持Anthropic格式,模型开源,上下文扩展至128K。
451 5
|
5月前
|
自然语言处理 数据可视化 API
解锁 Qwen3 的Agent能力,CookBook来咯!
Qwen3系列模型具备强大Agent能力,但从模型到Agent仍存技术难题。为此,我们推出基于Qwen-Agent框架的3个CookBook示例,展示如何让Qwen3丝滑调用MCP Server全过程。不论是本地部署还是API调用模型,开发者均可通过Qwen-Agent完成复杂任务。CookBook包括自然语言驱动数据库操作、云端高德API地理服务及文档转思维导图等功能。Qwen-Agent封装了工具调用模板和解析器,原生支持MCP协议,大幅降低开发成本。欢迎体验并反馈。
649 1
|
5月前
TortoiseSVN使用-合并分支代码
TortoiseSVN使用-合并分支代码
400 1
|
4月前
|
机器学习/深度学习 算法
WebSailor:探索 WebAgent的超人类推理能力
通义实验室推出WebSailor方案,通过创新的post-training方法显著提升开源模型在复杂网页推理任务中的表现。该方案包括合成高不确定性数据、多轮工具调用轨迹重构及强化学习算法DUPO应用,在多个评测中展现优越性能。
383 1
|
6月前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
6114 4
全新开源通义千问Qwen3,它来了!

热门文章

最新文章