《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(1)https://developer.aliyun.com/article/1554151
上图左侧是 2024GTC 大会上展示的一张关于模型发展对算力需求的曲线图。从 2018 年开始这条绿色曲线,从 Transformer 模型、到如今的 GPT、再到最新的 1.8 万亿参数大模型,对算力需求呈现了 10 倍规模递增的爆炸性增长,训练场景对算力的需求非常大。
另外根据估算,如果要训练一个 GPT-3、1750 亿参数的模型,训练的计算量大概在 3640 PFLOP * 天,对芯片的需求大概需要 1024 张 A100 跑一个月的时间,这是一个相当大的千卡规模,换算到成本上则是一笔非常巨大的计算开销。总体来说,当前阶段的 GPU 算力价格相对较贵,再到推理/微调本身的算力需求和成本,也可以看到部署的成本也 比较高,开销同样较大。
AIGC 对云基础设施的挑战
谈到大模型发展对体系结构的挑战,首先看到的是功耗墙的问题。
以 NVIDIA GPU 举例,2017 年开始,V100 的功耗只有 250 瓦,递增到 A100 功耗接近400 瓦,H100 功耗 700 瓦,到最新 B200 功耗大概到了 1000 瓦,算力成倍增长,计
算功耗也会增加的越来越多。最近业界也有许多讨论说到 AI 的尽头是能源,随着计算需求的增大,会带来能源上更大的需求。
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(3)https://developer.aliyun.com/article/1554149