《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(1)

简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


一文解读:阿里云 AI 基础设施的演进与挑战

2024 年 4 月 18-19 日,2024 中国生成式 AI 大会在北京 JW 万豪酒店举行,阿里云高级技术专家、阿里云异构计算 AI 推理团队负责人李鹏受邀在【AI Infra】专场发表题为

《AI 基础设施的演进与挑战》的主题演讲。李鹏从 AIGC 对云基础设施的挑战、如何进一步释放云上性能、AIGC 场景下训练和推理最佳实践三个方向逐一展开分享。

 

大模型的发展给计算体系结构带来了功耗墙、内存墙和通讯墙等多重挑战。其中,大模  型训练层面,用户在模型装载、模型并行、通信等环节面临各种现实问题;在大模型推  理层面,用户在显存、带宽、量化上面临性能瓶颈。

 

对于如何更好地释放云上性能助力 AIGC 应用创新?阿里云弹性计算为云上客户提供ECS GPU DeepGPU 增强工具包,帮助用户在云上高效地构建 AI 训练和 AI 推理基础设施,从而提高算力利用效率。李鹏介绍到。目前,阿里云 ECS DeepGPU 已经帮助众多客户实现性能的大幅提升。其中,LLM 微调训练场景下性能最高可提升 80%Stable Difussion 推理场景下性能最高可提升 60%。

 

以下是全文内容,供阅览。

image.png

 

李鹏 阿里云高级技术专家 & 阿里云异构计算 AI 推理团队负责人

 

 

 

从 2023 年开始,生成式 AI 爆发,文生视频、文生图、文生文等场景有很多大模型/用大模型产生,我也和我们的产品团队、架构师团队一起与阿里云客户做过多次技术分  享交流,看到了企业客户开始逐渐将生成式 AI 技术应用到实际的业务当中。

image.png

 

从我的感受来讲,如今越来越多的云上客户拥抱生成式 AI  的场景,大模型的接受度也越来越高,比如电子商务、影视、内容资讯和办公软件、游戏等典型的行业。

image.png

 

上图左侧是 2024GTC 大会上展示的一张关于模型发展对算力需求的曲线图。从 2018 年开始这条绿色曲线,从 Transformer 模型、到如今的 GPT、再到最新的 1.8 万亿参数大模型,对算力需求呈现了  10  倍规模递增的爆炸性增长,训练场景对算力的需求非常大。

 

另外根据估算,如果要训练一个 GPT-31750 亿参数的模型,训练的计算量大概在 3640 PFLOP * 天,对芯片的需求大概需要 1024A100 跑一个月的时间,这是一个相当大的千卡规模,换算到成本上则是一笔非常巨大的计算开销。总体来说,当前阶段的 GPU 算力价格相对较贵,再到推理/微调本身的算力需求和成本,也可以看到部署的成本也   比较高,开销同样较大。

 

AIGC 对云基础设施的挑战

image.png

 

谈到大模型发展对体系结构的挑战,首先看到的是功耗墙的问题。

 

NVIDIA GPU 举例,2017 年开始,V100 的功耗只有 250 瓦,递增到 A100 功耗接近400 瓦,H100 功耗 700 瓦,到最新 B200 功耗大概到了 1000 瓦,算力成倍增长,计

 

算功耗也会增加的越来越多。最近业界也有许多讨论说到 AI  的尽头是能源,随着计算需求的增大,会带来能源上更大的需求。

 

第二个体系结构挑战就是内存墙。

 

所谓内存墙,计算过程数据在 CPU 和 GPU 之间会做搬移/交换,如今 PCIE 的体系结构逐渐成为数据交换和传输的瓶颈。可以看到,像 NVIDIA 也在 Grace Hopper 架构上推出了 NVlink C2C 方案,能够大幅提升整个数据传输的速率。

 

第三个是通讯墙。

 

尤其对于训练来说,分布式训练规模还是非常大的,从去年的千卡规模到了如今万卡甚   至十万卡规模,分布式训练场景下如何增加机器之间的互联带宽也是一个巨大的挑战。  从国内外各个厂商的一些进展来看,在 A100 上会采用 800G 互联的带宽,在 H100 上会有 3.2T 带宽,也就是更大的互联带宽。所以现在看到的趋势就是硬件堆砌的趋势, 总结下来就是会有更大的显存、更高的显存带宽,还有更高的 CPU 和 GPU 之间的互联带宽,最后还有 PCIE 本身的向下迭代。

image.png

 

上图是以 NVIDIA GPU 举例,展示了 Ampere 从这一代架构开始到后面的 Blackwell 芯片的一些特点变化,体现在算力维度就是计算规模会越来越高,过往的不到   1PFlops如今要到 1P 以上,且显存大小也会越来越大,从前的 80G 到如今的 100G+的规模;显存带宽也是非常重要的指标,也在不断增加,这也反映了未来硬件、尤其是 AI 计算上硬件规格的变化。

 

《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(2)https://developer.aliyun.com/article/1554150

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
23天前
|
存储 人工智能 云计算
挑战杯专属支持资源|阿里云-AI大模型算力及实验资源丨云工开物
阿里云发起的“云工开物”高校支持计划,助力AI时代人才培养与科研创新。为“挑战杯”参赛选手提供专属算力资源、AI模型平台及学习训练资源,包括300元免费算力券、百炼大模型服务、PAI-ArtLab设计平台等,帮助学生快速掌握AI技能并构建优秀作品,推动产学研融合发展。访问链接领取资源:https://university.aliyun.com/action/tiaozhanbei。
|
1月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
252 76
|
26天前
|
人工智能 物联网 vr&ar
阿里云与米兰设计周大赛达成战略合作,共启AI时代设计教育新篇章丨云工开物
阿里云与米兰设计周中国高校设计学科师生优秀作品展达成战略合作,推动AI技术与艺术设计融合。赛事收到来自1759所高校的27万件作品,累计65万件,参赛人数超120万。专项赛设5大赛项,吸引720多所院校参与,投稿超9700件。阿里云提供免费算力和AIGC工具支持,助力“AI+乡村振兴”等创新设计,推动文旅产业发展与教育数字化升级。
|
1月前
|
人工智能 运维 Kubernetes
倒计时 3 天!邀您共赴维多利亚港精彩纷呈的 AI 基础设施技术盛宴!
6 月 9 日「KubeCon China 2025 分论坛|阿里云 AI 基础设施技术沙龙」火热报名中!席位有限,先到先得。热切期待您的莅临!
|
1月前
|
人工智能 安全 测试技术
|
人工智能
大讲堂 | AI产品能力,让AI技术能力更值钱
如果AI技术人员能及早意识到AI产品能力对自己的重要价值,花少量时间系统、高效地提升AI产品能力,对自己的职业发展将非常有利。讲者将在本次大讲堂进行相关分享。
401 0
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
132 5
当无人机遇上Agentic AI:新的应用场景及挑战
|
2月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
307 40
|
2月前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
278 0
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
|
2月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
127 11

热门文章

最新文章