《阿里云产品四月刊》—一文解读：阿里云 AI 基础设施的演进与挑战（6）-阿里云开发者社区

《阿里云产品四月刊》—一文解读：阿里云 AI 基础设施的演进与挑战（6）

2024-06-29 11

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云瑶池数据库云原生化和一体化产品能力升级，多款产品更新迭代

《阿里云产品四月刊》—一文解读：阿里云 AI 基础设施的演进与挑战（5）https://developer.aliyun.com/article/1554147

在模型训练过程中，尤其是分布式训练场景下，我们还看到一些比较关键的问题，就是集合通信性能问题。比如，在 Tensor 并行的切分当中，实际上会产生一些 allreduce 的操作，这些 allreduce 操作是夹杂在计算流当中的，会产生一个计算中断的问题，因此会带来计算效率的影响。

现在有相应的集合通信算法，或者是一些优化实现被开发出来去解决集合通信性能的影响，上图截图中展示的是我们在做一些并行训练时发现的部分瓶颈。

在大模型推理时，我们需要关注三个方面：显存、带宽和量化。

量化，如今很多模型在发布时都会提供 FP16 精度的模型，还会给一些量化后的模型，低精度量化带来的效果是可以省下更多显存，也可以提高访存效率，因此现在很多大模型推理都会采用量化的方式。

总结来说：首先，大模型推理会有显存瓶颈；其次，在推理方面可以选择多卡推理，做 TP 方式切分，训练卡可以用在推理业务，且会有一些不错的效果。

《阿里云产品四月刊》—一文解读：阿里云 AI 基础设施的演进与挑战（7）https://developer.aliyun.com/article/1554145

《阿里云产品四月刊》—一文解读：阿里云 AI 基础设施的演进与挑战（6）