《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(7)

简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(6)https://developer.aliyun.com/article/1554146

 

image.png

 

上图展示的是我们在做一些模型微观性能分析时看到的一些状况,上面是典型的Tranformer 结构,包含了像 attention 结构和 MLP 结构。在这些算子里面,我们通过微观的分析可以看到,大部分的计算都是矩阵乘运算,就是 GEMM 的操作,实际有 85% 的耗时都是访存,主要是去做显存的读取。

 

大模型推理本身是自回归的方式,上一个生成出来的 token 会用在下一个 token 的计算,基本都是访存密集型计算。总结来说基于这些行为,在优化时我们会把 attention 结构的许多算子以及 MLP 的算子分别融合成大的算子,这样会显著提高计算效率。

 

 

image.png

 

在大模型推理带宽需求方面,以 LLaMA 7B 在 A10 或者 A100 上的对比为例:如上图, 红色曲线代表的是 A100 VS A10 QPS 的比例关系,在不同 batchsize 下,红色曲线基本上是一条水平的线,这从侧面印证了大模型推理基本是一个访存密集型的操作,它的    上限是由 GPU 的 HBM 显存带宽决定的。


《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(8)https://developer.aliyun.com/article/1554144

相关文章
|
10月前
|
人工智能 运维 监控
AI时代云基础设施的技术创新与展望丨ODCC2023
AI时代云基础设施的技术创新与展望丨ODCC2023
|
2月前
|
人工智能 弹性计算 算法
一文解读:阿里云AI基础设施的演进与挑战
一文解读:阿里云AI基础设施的演进与挑战
|
2天前
|
人工智能 弹性计算 Cloud Native
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 Cloud Native 数据库
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(8)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 Cloud Native 数据库
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 Cloud Native 算法
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(6)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 Cloud Native 数据库
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
存储 人工智能 Cloud Native
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(5)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 算法 Cloud Native
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(4)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
2天前
|
人工智能 Cloud Native 数据库
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(10)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代