《百炼成金-大金融模型新篇章》––05.问题3:“大模型vs越来越大的模型”,模型sIzE的军备竞赛

简介: 百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。

本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》


问题 3: “大模型 vs 越来越大的模型”,模型 size 的军备竞赛


OpenAI 的研究者在 2020 年发现,大语言模型也遵循着规模定律(ScalingLaw),模型参数数量的增加常常被看作是提高模型性能的一个关键因素。这导致了一种被业界戏称为“模型参数的军备竞赛”的现象,即科研机构和科技公司不断推出参数量更大、计算需求更高的模型,以追求在特定任务上的最佳性能。然而,这种军备竞赛带来了诸多挑战:


越来越大的模型通常具有更强的学习能力和泛化能力,因为有更多的参数可以捕捉数据中的复杂特征和模式。能够处理更复杂的任务和数据集,通常在各种基准和实际问题上表现更好。随着参数数量的增加,模型通常能够更好地理解语言的细微差别或更精准地识别图像中的对象。

 

但越来越大的模型带来能力提升的同时,也带来了海量的算力消耗,如何根据不同的业务场景选择合适的模型将是一个迫在眉睫的问题?


大模型推理运行时,核心消耗的资源是显存,推理过程中除了要加载对应参数的模型,还与输入输出的参数量有关,输入参数越多显存消耗越大,输出参数量越多模型响应越慢,我们根据一个简单的估算公式,来评估不同业务场景的资源消耗:


大模型推理的总显存占用公式: 𝐼𝑛𝑓𝑒𝑟𝑀𝑒𝑚𝑜𝑟𝑦≈ 1.2∗𝑀𝑜𝑑𝑒𝑙𝑀𝑒𝑚𝑜𝑟𝑦


(详见参考:TransformerInferenceArithmetic|kipply'sblog)


以 72B 参数的模型,在 BF16 精度下(浮点数 2 个字节)


𝐼𝑛𝑓𝑒𝑟𝑀𝑒𝑚𝑜𝑟𝑦≈ 1.2*𝑀𝑜𝑑𝑒𝑙𝑀𝑒𝑚𝑜𝑟𝑦(72 亿 *2)≈ 172.8G


运行一个 72B 的大模型至少需要 3 张 A100(80G),现以企业知识库和智能外呼场景为例进行资源评估:


知识库检索场景:典型的 RAG 增强检索高并发场景,输入少输出多,每次问题请求处理时间在 1-2s,峰值支持 50 并发(按照 5000 人的金融机构有 1% 的并发率),需要的 GPU卡的数量在 150-300 张 A100(80G),如果想要更精准的回复,可以选择 200B 或更大的模型,但 200B 大模型算力消耗会有 2.7 倍的增加。


智能外呼场景:典型的高并发低延时场景,输入多输出少,每次意图识别响应时间 200-300ms,峰值支持 1000 并发,需要的 GPU 卡的数量在 600-900 张 A100(80G)。


在正式生产业务应用时,业务是有典型的波峰波谷的,如果我们按照波峰要求建设算力池,势必会带来资源的低效使用,例如:知识库检索应用的平均资源利用率在 20%-30%;智能外呼应用的平均资源利用率在 5%-10%。如何提高算力资源利用率将是一个颇具挑战的问题?

相关文章
|
10天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
122 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
11天前
|
人工智能 缓存 自然语言处理
阿里云百炼大模型收费说明:模型推理、模型训练和模型部署费用整理
阿里云百炼平台开通免费,且每模型享100万Token免费额度。费用产生于模型推理、训练(调优)和部署,超出免费额度后按量计费。推理按输入/输出Token阶梯计价,训练按数据量和循环次数计费,部署支持按时长或调用量两种模式。
435 65
|
14天前
|
人工智能 自然语言处理 语音技术
阿里云百炼官网首页登录入口:开通百炼,每个大模型免费100万Tokens
阿里云百炼平台现开放免费领Token福利,开通即享超5000万额度。提供大模型推理、部署及训练服务,涵盖通义千问、万相等多个系列模型。前台介绍平台详情与价格,后台支持API-Key申请及管理操作。
147 8
人工智能
133 0
|
21天前
通义千问Image模型使用指南
该表格展示了多个设计场景,包括模型选择、复制粘贴提示词、一键生图等步骤。每个步骤配有详细描述及示意图,呈现了不同主题如商业海报、IP主视觉、品牌包装、街拍风格等的设计构思与实现方式。
|
22天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
155 2
|
23天前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
27天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
323 109
|
28天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
106 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
2月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
369 2

热门文章

最新文章