《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(5)https://developer.aliyun.com/article/1554147
在模型训练过程中, 尤其是分布式训练场景下, 我们还看到一些比较关键的问题,就是集合通信性能问题。比如,在 Tensor 并行的切分当中,实际上会产生一些 allreduce 的操作,这些 allreduce 操作是夹杂在计算流当中的,会产生一个计算中断的问题,因此会带来计算效率的影响。
现在有相应的集合通信算法,或者是一些优化实现被开发出来去解决集合通信性能的影 响,上图截图中展示的是我们在做一些并行训练时发现的部分瓶颈。
在大模型推理时,我们需要关注三个方面:显存、带宽和量化。
- 显存,模型参数量大小决定了需要多少显存。
- 带宽,因为在大模型推理时实际上是访存密集型的计算方式,在计算当中需要频繁 的访问显存,这种情况下带宽的规格是影响推理速度的首要因素。
- 量化,如今很多模型在发布时都会提供 FP16 精度的模型,还会给一些量化后的模型,低精度量化带来的效果是可以省下更多显存,也可以提高访存效率,因此现在 很多大模型推理都会采用量化的方式。
总结来说:首先,大模型推理会有显存瓶颈;其次,在推理方面可以选择多卡推理,做 TP 方式切分,训练卡可以用在推理业务,且会有一些不错的效果。
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(7)https://developer.aliyun.com/article/1554145