一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

简介: 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

FastMoE 系统


https://github.com/laekov/fastmoe


简介


FastMoE 是一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.


安装


依赖


启用了 CUDA 的 PyTorch 是必要的. 当前版本的 FastMoE 在 PyTorch v1.8.0 和 CUDA 10

的平台上经过了测试. 本系统从设计上也支持更旧的 PyTorch 版本.

如果需要使能 FastMoE 模型并行特性, 那么支持点对点通信的 NCCL 库 (即不旧于

2.7.5 版本) 也是必需的.


安装


FastMoE 包含一些定制的 PyTorch 算子, 包含一些 C 的组件. 用 python setup.py install

来简单地安装 FastMoE.

FastMoE 分布式模型并行特性默认是不被启用的. 如果它需要被启用,

则需要在运行上述命令时加入环境变量 USE_NCCL=1.

注意, 由于 PyTorch 框架通常仅集成了 NCCL 的运行时组件, 额外的 NCCL

开发包需要被安装在编译环境中, 而且它的版本需要与 PyTorch 的版本相对应. 推荐使用

PyTorch 官方 Docker 镜像,

因为那里的环境较为干净. 如果您希望手工配置环境, 可以在 NCCL
全部版本的下载链接

下载合适版本的 NCCL 开发包.


使用


将一个 Transformer 模型 FMoE 化


Transformer 是当前最流行的可被 MoE 化的模型. FastMoE 可以一键将一个普通的

Transformer 模型变为一个  MoE 的模型. 其使用方法如下.

例如在 Megatron-LM 中,

添加如下的代码即可将 Transformer 中的每个 MLP 层变为多个 MLP 层构成的 MoE 网络.

model = ...
from fmoe.megatron import fmoefy
model = fmoefy(model, num_experts=<number of experts per worker>)
train(model, ...)


一个更详细的在 Megatron-LM 中使用 fmoefy 函数的样例参见此处.


将 FastMoE 作为一个网络模块使用


一个使用 FastMoE 的 Transformer 模型见这个示例.

最简单的使用方式是使用 FMoE 层来代替 MLP 层.


分布式地使用 FastMoE


FastMoE 支持数据并行和模型并行.


数据并行.


在 FastMoE 的数据并行模式下,

门网络(gate)和专家网络都被复制地放置在各个运算单元上.

下图展示了一个有三个专家的两路数据并行MoE模型进行前向计算的方式.


30.png


对于数据并行, 额外的代码是不需要的. FastMoE 与 PyTorch 的 DataParallel

DistributedDataParallel 模块都可以无缝对接. 该方式唯一的问题是,

专家的数量受到单个计算单元(如GPU)的内存大小限制.


模型并行


在 FastMoE 的模型并行模式中, 门网络依然是复制地被放置在每个计算单元上的,

但是专家网络被独立地分别放置在各个计算单元上. 因此, 通过引入额外的通信操作,

FastMoE 可以允许更多的专家网络们同时被训练,

而其数量限制与计算单元的数量是正相关的.

下图展示了一个有六个专家网络的模型被两路模型并行地训练.

注意专家1-3被放置在第一个计算单元上, 而专家4-6被放置在第二个计算单元上.


31.png


FastMoE 的模型并行模式需要专门的并行策略, 而 PyTorch 和 Megatron-LM

都不支持这样的策略. 因此, 需要使用 fmoe.DistributedGroupedDataParallel

模块来代替 PyTorch 的 DDP 模块.

相关文章
|
13天前
|
存储 人工智能 PyTorch
基于PyTorch/XLA的高效分布式训练框架
基于PyTorch/XLA的高效分布式训练框架
23 2
|
30天前
|
机器学习/深度学习 自然语言处理 PyTorch
【PyTorch实战演练】基于AlexNet的预训练模型介绍
【PyTorch实战演练】基于AlexNet的预训练模型介绍
45 0
|
2月前
|
机器学习/深度学习 存储 PyTorch
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
68 0
|
2月前
|
机器学习/深度学习 并行计算 PyTorch
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
137 0
|
21天前
|
机器学习/深度学习 关系型数据库 MySQL
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
GQA是一种结合MQA和MHA优点的注意力机制,旨在保持MQA的速度并提供MHA的精度。它将查询头分成组,每组共享键和值。通过Pytorch和einops库,可以简洁实现这一概念。GQA在保持高效性的同时接近MHA的性能,是高负载系统优化的有力工具。相关论文和非官方Pytorch实现可进一步探究。
57 4
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch使用VGG16模型进行预测猫狗二分类
深度学习已经在计算机视觉领域取得了巨大的成功,特别是在图像分类任务中。VGG16是深度学习中经典的卷积神经网络(Convolutional Neural Network,CNN)之一,由牛津大学的Karen Simonyan和Andrew Zisserman在2014年提出。VGG16网络以其深度和简洁性而闻名,是图像分类中的重要里程碑。
|
1月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
30天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【PyTorch实战演练】AlexNet网络模型构建并使用Cifar10数据集进行批量训练(附代码)
【PyTorch实战演练】AlexNet网络模型构建并使用Cifar10数据集进行批量训练(附代码)
56 0
|
30天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
53 0
|
6天前
|
机器学习/深度学习 算法 PyTorch
PyTorch模型优化与调优:正则化、批归一化等技巧
【4月更文挑战第18天】本文探讨了PyTorch中提升模型性能的优化技巧,包括正则化(L1/L2正则化、Dropout)、批归一化、学习率调整策略和模型架构优化。正则化防止过拟合,Dropout提高泛化能力;批归一化加速训练并提升性能;学习率调整策略动态优化训练效果;模型架构优化涉及网络结构和参数的调整。这些方法有助于实现更高效的深度学习模型。