2024 年 4 月 18-19 日,2024 中国生成式 AI 大会在北京 JW 万豪酒店举行,阿里云高级技术专家、阿里云异构计算 AI 推理团队负责人李鹏受邀在【AI Infra】专场发表题为
《AI 基础设施的演进与挑战》的主题演讲。李鹏从 AIGC 对云基础设施的挑战、如何进一步释放云上性能、AIGC 场景下训练和推理最佳实践三个方向逐一展开分享。
大模型的发展给计算体系结构带来了功耗墙、内存墙和通讯墙等多重挑战。其中,大模 型训练层面,用户在模型装载、模型并行、通信等环节面临各种现实问题;在大模型推 理层面,用户在显存、带宽、量化上面临性能瓶颈。
对于如何更好地释放云上性能助力 AIGC 应用创新?“阿里云弹性计算为云上客户提供了 ECS GPU DeepGPU 增强工具包,帮助用户在云上高效地构建 AI 训练和 AI 推理基础设施,从而提高算力利用效率。”李鹏介绍到。目前,阿里云 ECS DeepGPU 已经帮助众多客户实现性能的大幅提升。其中,LLM 微调训练场景下性能最高可提升 80%,Stable Difussion 推理场景下性能最高可提升 60%。
以下是全文内容,供阅览。
李鹏 阿里云高级技术专家 & 阿里云异构计算 AI 推理团队负责人
从 2023 年开始,生成式 AI 爆发,文生视频、文生图、文生文等场景有很多大模型/通用大模型产生,我也和我们的产品团队、架构师团队一起与阿里云客户做过多次技术分 享交流,看到了企业客户开始逐渐将生成式 AI 技术应用到实际的业务当中。
从我的感受来讲,如今越来越多的云上客户拥抱生成式 AI 的场景,大模型的接受度也越来越高,比如电子商务、影视、内容资讯和办公软件、游戏等典型的行业。
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(2)https://developer.aliyun.com/article/1554150