开发者社区 问答 正文

为什么采用数据并行+专家并行的混合并行策略来训练M6模型?

为什么采用数据并行+专家并行的混合并行策略来训练M6模型:MoE layer采用专家并行,其他layer采用数据并行?

展开
收起
岩茶芋泥 2022-04-20 11:08:17 2122 分享 版权
来自: 阿里技术
1 条回答
写回答
取消 提交回答
  • 训练一个万亿/10万亿参数模型,算力需求非常大。为了降低算力需求,EPL中实现了MoE(Mixture-of-Experts)结构,MoE的主要特点是稀疏激活,使用Gating(Router)来为输入选择Top-k的expert进行计算(k常用取值1、2),从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP),将experts拆分到多个devices上,降低单个device的显存和算力需求。同时,数据并行有利于提升训练的并发度。

    2022-04-20 13:26:44
    赞同 展开评论
问答地址: