开发者社区> 致Great_VIP> 正文

一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

简介: 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.
+关注继续查看

FastMoE 系统


https://github.com/laekov/fastmoe


简介


FastMoE 是一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.


安装


依赖


启用了 CUDA 的 PyTorch 是必要的. 当前版本的 FastMoE 在 PyTorch v1.8.0 和 CUDA 10

的平台上经过了测试. 本系统从设计上也支持更旧的 PyTorch 版本.

如果需要使能 FastMoE 模型并行特性, 那么支持点对点通信的 NCCL 库 (即不旧于

2.7.5 版本) 也是必需的.


安装


FastMoE 包含一些定制的 PyTorch 算子, 包含一些 C 的组件. 用 python setup.py install

来简单地安装 FastMoE.

FastMoE 分布式模型并行特性默认是不被启用的. 如果它需要被启用,

则需要在运行上述命令时加入环境变量 USE_NCCL=1.

注意, 由于 PyTorch 框架通常仅集成了 NCCL 的运行时组件, 额外的 NCCL

开发包需要被安装在编译环境中, 而且它的版本需要与 PyTorch 的版本相对应. 推荐使用

PyTorch 官方 Docker 镜像,

因为那里的环境较为干净. 如果您希望手工配置环境, 可以在 NCCL
全部版本的下载链接

下载合适版本的 NCCL 开发包.


使用


将一个 Transformer 模型 FMoE 化


Transformer 是当前最流行的可被 MoE 化的模型. FastMoE 可以一键将一个普通的

Transformer 模型变为一个 MoE 的模型. 其使用方法如下.

例如在 Megatron-LM 中,

添加如下的代码即可将 Transformer 中的每个 MLP 层变为多个 MLP 层构成的 MoE 网络.

model = ...
from fmoe.megatron import fmoefy
model = fmoefy(model, num_experts=<number of experts per worker>)
train(model, ...)


一个更详细的在 Megatron-LM 中使用 fmoefy 函数的样例参见此处.


将 FastMoE 作为一个网络模块使用


一个使用 FastMoE 的 Transformer 模型见这个示例.

最简单的使用方式是使用 FMoE 层来代替 MLP 层.


分布式地使用 FastMoE


FastMoE 支持数据并行和模型并行.


数据并行.


在 FastMoE 的数据并行模式下,

门网络(gate)和专家网络都被复制地放置在各个运算单元上.

下图展示了一个有三个专家的两路数据并行MoE模型进行前向计算的方式.


30.png


对于数据并行, 额外的代码是不需要的. FastMoE 与 PyTorch 的 DataParallel

DistributedDataParallel 模块都可以无缝对接. 该方式唯一的问题是,

专家的数量受到单个计算单元(如GPU)的内存大小限制.


模型并行


在 FastMoE 的模型并行模式中, 门网络依然是复制地被放置在每个计算单元上的,

但是专家网络被独立地分别放置在各个计算单元上. 因此, 通过引入额外的通信操作,

FastMoE 可以允许更多的专家网络们同时被训练,

而其数量限制与计算单元的数量是正相关的.

下图展示了一个有六个专家网络的模型被两路模型并行地训练.

注意专家1-3被放置在第一个计算单元上, 而专家4-6被放置在第二个计算单元上.


31.png


FastMoE 的模型并行模式需要专门的并行策略, 而 PyTorch 和 Megatron-LM

都不支持这样的策略. 因此, 需要使用 fmoe.DistributedGroupedDataParallel

模块来代替 PyTorch 的 DDP 模块.

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
23588 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
22364 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
16671 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
22541 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
19821 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
11998 0
+关注
400
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载