大模型在云上的训练与部署
本文系统阐述大模型在云上的训练与部署实践路径,涵盖发展趋势、GPU集群搭建、框架选型、数据处理、分布式训练、模型部署、成本优化及金融行业应用案例,全面解析云计算如何支撑大模型高效落地,并展望“大模型即服务”(MaaS)的未来生态。
08_昇腾推荐系统加速算子:FBGEMM算子库
FBGEMM算子库适配昇腾平台,支持Torchrec模型在DCNV2和GR等推荐模型中的高效运行。已完成JaggedToPaddedDense、DenseToJagged、HstuDenseForward/Backward等核心算子的移植与优化,并引入自定义算子提升生成式推荐性能,助力推荐系统训练加速。
07_昇腾嵌入表性能提升
本文介绍嵌入表性能优化的六大策略:多流并行掩盖通信延迟,Pin Memory加速数据传输,两级去重减少计算冗余,通信模式优化降低开销,梯度累积节省内存,并结合实验验证效果,全面提升训练效率与资源利用率。