为什么采用数据并行+专家并行的混合并行策略来训练M6模型?
训练一个万亿/10万亿参数模型,算力需求非常大。为了降低算力需求,EPL中实现了MoE(Mixture-of-Experts)结构,MoE的主要特点是稀疏激活,使用Gating(Router)来为输入选择Top-k的expert进行计算(k常用取值1、2),从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP),将experts拆分到多个devices上,降低单个device的显存和算力需求。同时,数据并行有利于提升训练的并发度。
赞0
踩0