《百炼成金-大金融模型新篇章》––05.问题3:“大模型vs越来越大的模型”,模型sIzE的军备竞赛

简介: 百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。

本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》


问题 3: “大模型 vs 越来越大的模型”,模型 size 的军备竞赛


OpenAI 的研究者在 2020 年发现,大语言模型也遵循着规模定律(ScalingLaw),模型参数数量的增加常常被看作是提高模型性能的一个关键因素。这导致了一种被业界戏称为“模型参数的军备竞赛”的现象,即科研机构和科技公司不断推出参数量更大、计算需求更高的模型,以追求在特定任务上的最佳性能。然而,这种军备竞赛带来了诸多挑战:


越来越大的模型通常具有更强的学习能力和泛化能力,因为有更多的参数可以捕捉数据中的复杂特征和模式。能够处理更复杂的任务和数据集,通常在各种基准和实际问题上表现更好。随着参数数量的增加,模型通常能够更好地理解语言的细微差别或更精准地识别图像中的对象。

 

但越来越大的模型带来能力提升的同时,也带来了海量的算力消耗,如何根据不同的业务场景选择合适的模型将是一个迫在眉睫的问题?


大模型推理运行时,核心消耗的资源是显存,推理过程中除了要加载对应参数的模型,还与输入输出的参数量有关,输入参数越多显存消耗越大,输出参数量越多模型响应越慢,我们根据一个简单的估算公式,来评估不同业务场景的资源消耗:


大模型推理的总显存占用公式: 𝐼𝑛𝑓𝑒𝑟𝑀𝑒𝑚𝑜𝑟𝑦≈ 1.2∗𝑀𝑜𝑑𝑒𝑙𝑀𝑒𝑚𝑜𝑟𝑦


(详见参考:TransformerInferenceArithmetic|kipply'sblog)


以 72B 参数的模型,在 BF16 精度下(浮点数 2 个字节)


𝐼𝑛𝑓𝑒𝑟𝑀𝑒𝑚𝑜𝑟𝑦≈ 1.2*𝑀𝑜𝑑𝑒𝑙𝑀𝑒𝑚𝑜𝑟𝑦(72 亿 *2)≈ 172.8G


运行一个 72B 的大模型至少需要 3 张 A100(80G),现以企业知识库和智能外呼场景为例进行资源评估:


知识库检索场景:典型的 RAG 增强检索高并发场景,输入少输出多,每次问题请求处理时间在 1-2s,峰值支持 50 并发(按照 5000 人的金融机构有 1% 的并发率),需要的 GPU卡的数量在 150-300 张 A100(80G),如果想要更精准的回复,可以选择 200B 或更大的模型,但 200B 大模型算力消耗会有 2.7 倍的增加。


智能外呼场景:典型的高并发低延时场景,输入多输出少,每次意图识别响应时间 200-300ms,峰值支持 1000 并发,需要的 GPU 卡的数量在 600-900 张 A100(80G)。


在正式生产业务应用时,业务是有典型的波峰波谷的,如果我们按照波峰要求建设算力池,势必会带来资源的低效使用,例如:知识库检索应用的平均资源利用率在 20%-30%;智能外呼应用的平均资源利用率在 5%-10%。如何提高算力资源利用率将是一个颇具挑战的问题?

目录
打赏
0
7
8
1
69
分享
相关文章
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
229 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于通义大模型的智能客服系统构建实战:从模型微调到API部署
本文详细解析了基于通义大模型的智能客服系统构建全流程,涵盖数据准备、模型微调、性能优化及API部署等关键环节。通过实战案例与代码演示,展示了如何针对客服场景优化训练数据、高效微调大模型、解决部署中的延迟与并发问题,以及构建完整的API服务与监控体系。文章还探讨了性能优化进阶技术,如模型量化压缩和缓存策略,并提供了安全与合规实践建议。最终总结显示,微调后模型意图识别准确率提升14.3%,QPS从12.3提升至86.7,延迟降低74%。
172 13
|
2月前
|
基于neo4j数据库和dify大模型框架的rag模型搭建
基于neo4j数据库和dify大模型框架的rag模型搭建
405 35
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
155 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
通义万相新模型开源,首尾帧图一键生成特效视频!
通义万相首尾帧生视频14B模型正式开源,作为首个百亿级参数规模的开源模型,可依据用户提供的开始与结束图片生成720p高清衔接视频,满足延时摄影、变身等定制化需求。用户上传两张图片或输入提示词即可完成复杂视频生成任务,支持运镜控制和特效变化。该模型基于Wan2.1架构改进,训练数据专门构建,确保高分辨率和流畅性。
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问