备案控制台

开发者社区> 问答> 正文

企业在大模型训练、微调和推理环节对算力的需求有何不同？

企业在大模型训练、微调和推理环节对算力的需求有何不同？

展开

收起

夹心789 2024-06-25 23:05:42 6 0

1 条回答

写回答

取消提交回答

shuj

不同的企业对算力的需求存在显著差异，
首先是训练阶段：这一阶段通常需要最高的算力。因为训练大型模型需要处理海量的数据，并且需要进行多次迭代以优化模型参数。这通常涉及到大量的浮点运算，因此需要大量的GPU或TPU资源。例如，训练一个千亿参数规模的大型模型可能需要数千个GPU，并且可能需要数周的处理时间，成本可能达到数百万美元可以参考这个文档： https://www.thepaper.cn/newsDetail_forward_22716419
而微调阶段：微调通常需要的算力比训练阶段要低，因为不需要从头开始训练模型，而是在已有的基础上进行调整。但是，如果微调涉及到全参数更新，它仍然可能需要相对较高的算力，尤其是对于大型模型。一些优化技术如LoRA（Low-Rank Adaptation）可以减少所需的算力

最后是推理阶段：推理是指使用训练好的模型对新数据进行预测。与训练和微调相比，推理通常需要的算力较低，因为它只涉及模型的前向传播。然而，对于大型模型，即使是推理也可能需要相对较多的GPU资源，特别是当需要快速响应或处理大量请求时。此外，推理的算力需求还取决于模型的复杂性和输入数据的大小
这个是大致的图：

文章参考： https://www.zhihu.com/tardis/bd/art/672573246?source_id=1001

2024-06-26 17:47:38

赞同 3 展开评论打赏

问答标签：

人工智能平台 PAI环节人工智能平台 PAI微调人工智能平台 PAI推理人工智能平台 PAI算力

问答地址：

开发者社区 > 云计算 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

机器学习PAI平台部署微调的大模型是怎么收费的？

38

1

0

机器学习PAI我想问一下，你们预期的qwen-7B模型，部署eas上加速推理后，RT最好能达到多少？

45

1

0

机器学习PAI有在Yitian上推理LLM的方案吗？

62

1

0

文字识别OCR模型训练环节，所使用的训练机，是否存在数据泄露的风险？

56

2

0

ModelScope微调后的模型推理不起作用，跑完了感觉实际没生效？

26

0

0

阿里云百炼的模型微调和模型训练，是一码事么？

44

1

0

ModelScope中，轻量级大模型训练推理框架这个交互界面的参数有详细的参数设置说明文档吗?

21

1

0

机器学习PAI资源池里购买了EAS推理资源，为啥部署eas的还要重复购买，不能复用吗？

17

1

0

机器学习PAI中EAS部署Bert微调模型有参考文档不，保存模型是.pth格式文件？

20

0

0

modelscope-funasr换成本地微调好得模型推理，报错，怎么解决？

20

0

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699883

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818312

3 据说在家办公的程序员是这样写代码的？ 1792338

4 阿里云开放端口权限 689921

5 如何升级配置 536072

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522457

7 【精品问答】python技术1000问(1) 514000

8 Flink Forward Asia 2021 有奖问答 512806

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456921

10 OceanBase 使用动画（持续更新） 359264

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329721

12 OSS存储服务-客户端工具 321336

13 为体验实验室取一个新名字。 307316

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303856

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295162

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283651

17 安全组详解，新手必看教程 277260

18 写code还是做管理，开发者如何进行职业规划？ 268462

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255828

20 阿里云手机和阿云浏览器连接问题专帖 235631

1 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 475

2 如何避免“写代码5分钟，调试2小时”的尴尬？ 395

3 一键部署3D卡通风格模型，分享部署过程及使用体验 490

4 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 752

5 机器学习PAI现在一直在重试，怎样停掉？ 202

6 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 160

7 平头哥芯片W800:芯片如何购买？ 132

8 阿里云Grafana升级10后已有的飞书webhook 报警机器人不再工作。请问如何排查？ 133

9 Nacos登录密码忘记了如何修改？ 234

10 你知道APP是怎么开发的吗？ 1447

11 如何提高企业的业务稳定性？ 605

12 钉钉宜搭，A提交一个表单，如何设置该表单只能给B看？ 133

13 百问求答 | 回答问题即有机会得米家落地扇 318

14 集成&自动化：3层触发时，新增和删除触发正常，但编辑时不正常 105

15 分享AI代码助手的使用体验 739

16 分享一张AI生成的“老照片”，讲讲你与它的故事 993

17 idea上的通义灵码生成git提交消息老是会变成英文没有切换中文的入口 257

18 通义灵码插件IDEA生成Git Commit Message 时无法生成中文 206

19 在阿里云百炼如果我开启了商务版本，是不是我所有的项目都是共用一个扣费的？ 117

20 阿里云百炼的Assistant API能有对应的RAG对知识库进行检索的接口没？ 110

相关课程

更多

PAI平台学习路线：机器学习入门到应用

2417

52

去学习

场景实践 - 机器学习PAI实现精细化营销

194

7

去学习

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

146

8

去学习

场景实践 - 基于机器学习进行收入预测分析

95

6

去学习

机器学习概览及常见算法

31640

13

去学习

机器学习入门-概念原理及常用算法

13453

8

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用 立即下载

阿里巴巴机器学习平台AI 立即下载

机器学习及人机交互实战 立即下载

相关实验场景

更多