PyTorch distributed barrier 引发的陷阱

简介: PyTorch distributed barrier 引发的陷阱

Pytorch 中 torch.distributed.barrier 函数通常用于分布式进程同步,但是使用也存在一个陷阱。

记录一个最近使用 Pytorch 分布式遇到的一个问题。

熟悉 Pytorch 的同学一定知道 torch.distributed.barrier 是用于不同进程间的同步,其原理很简单,就是每个进程进入这个函数后都会被阻塞,当所有进程都进入这个函数后,阻塞解除,继续向下执行。废话不多说,直接说重点:所有进程都执行到这一步。也就是说如果有些代码是某个进程单独执行,并且不小心包含了这条语句,那么这个进程陷入无限等待。

直接看我的错误例子


train_dataloader = create_dataloader(rank, ...)  
if rank in [-1, 0]:  
val_dataloader = create_dataloader(rank, ...)


create_dataloader 内部:


def create_dataloader(rank, ...):
    with torch_distributed_zero_first(rank):
        dataset = Dataset(...)
    dataloader = foo(dataset)
    return dataloader


torch_distributed_zero_first(rank) 是一个 contextmanager,其用法就是用 @contextmanager 语法糖修饰一个生成器,使其能够按照 with ... 形式执行。


@contextmanager 
def torch_distributed_zero_first(rank):
    if rank not in [-1, 0]:
        torch.distributed.barrier()
    yield     
    if rank == 0:
        torch.distributed.barrier()


contextmanager,其用法就是用执行顺序是:

  1. 首先with 语句先执行生成器内部代码,遇到 yield 之后返回(如果有返回值则就是 with ... as ... 中 as 的值)。
  2. 继续执行 with 嵌套的语句(如上就是创建 Dataset),执行完毕回到生成器。
  3. 执行 yield 后面的语句。

首先说明一下,使用 torch_distributed_zero_first 的目的是执行创建 dataloader 的时候,期望主进程能够先执行,这样可以创建一些缓存之类的文件,让后续进程直接读取缓存,加快顺序,这是出发点。我们看一下运行原理:首先 create_dataloaderwith torch_distributed_zero_first(rank): 调用会让除了主进程以外的其他进程进入阻塞,只有主进程会继续在 yield 执行的时候返回,执行嵌套语句,创建 Dataset,然后再次进入生成器,调用 barrier。这时候所有进程进入了 barrier 函数,因此所有一起被唤醒,继续向下执行。因此这样确保所有进程中主进程最先执行了嵌套语句。

弄明白了上述的工作原理,再看 val_dataloader 的创建过程,其问题出在只有主进程执行了这个调用。因此按照上述分析,主进程创建完 Dataset 之后,被阻塞,此时其他进程并未被阻塞,因此主进程陷入无限阻塞(后续如果恰好其他进程执行到 barrier 或许可以解除)。因此这里应该传入 rank=-1,跳过 if 后面的 barrier。

目录
相关文章
|
机器学习/深度学习 并行计算 安全
PyTorch并行与分布式(四)Distributed Data Papallel
PyTorch并行与分布式(四)Distributed Data Papallel
498 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
88 1
|
5月前
|
机器学习/深度学习 PyTorch API
PyTorch量化感知训练技术:模型压缩与高精度边缘部署实践
本文深入探讨神经网络模型量化技术,重点讲解训练后量化(PTQ)与量化感知训练(QAT)两种主流方法。PTQ通过校准数据集确定量化参数,快速实现模型压缩,但精度损失较大;QAT在训练中引入伪量化操作,使模型适应低精度环境,显著提升量化后性能。文章结合PyTorch实现细节,介绍Eager模式、FX图模式及PyTorch 2导出量化等工具,并分享大语言模型Int4/Int8混合精度实践。最后总结量化最佳策略,包括逐通道量化、混合精度设置及目标硬件适配,助力高效部署深度学习模型。
730 21
PyTorch量化感知训练技术:模型压缩与高精度边缘部署实践
|
14天前
|
边缘计算 人工智能 PyTorch
130_知识蒸馏技术:温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现
随着大型语言模型(LLM)的规模不断增长,部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例,其671B参数的规模即使经过INT4量化后,仍需要至少6张高端GPU才能运行,这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在显著降低模型复杂度的同时保留核心性能,成为解决这一问题的关键技术之一。
|
1月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
75 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
2月前
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
165 9
|
7月前
|
机器学习/深度学习 JavaScript PyTorch
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
生成对抗网络(GAN)的训练效果高度依赖于损失函数的选择。本文介绍了经典GAN损失函数理论,并用PyTorch实现多种变体,包括原始GAN、LS-GAN、WGAN及WGAN-GP等。通过分析其原理与优劣,如LS-GAN提升训练稳定性、WGAN-GP改善图像质量,展示了不同场景下损失函数的设计思路。代码实现覆盖生成器与判别器的核心逻辑,为实际应用提供了重要参考。未来可探索组合优化与自适应设计以提升性能。
504 7
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
|
4月前
|
机器学习/深度学习 存储 PyTorch
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。
175 2
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
|
3月前
|
机器学习/深度学习 数据可视化 PyTorch
Flow Matching生成模型:从理论基础到Pytorch代码实现
本文将系统阐述Flow Matching的完整实现过程,包括数学理论推导、模型架构设计、训练流程构建以及速度场学习等关键组件。通过本文的学习,读者将掌握Flow Matching的核心原理,获得一个完整的PyTorch实现,并对生成模型在噪声调度和分数函数之外的发展方向有更深入的理解。
1282 0
Flow Matching生成模型:从理论基础到Pytorch代码实现
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
本文将深入探讨L1、L2和ElasticNet正则化技术,重点关注其在PyTorch框架中的具体实现。关于这些技术的理论基础,建议读者参考相关理论文献以获得更深入的理解。
114 4
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现

热门文章

最新文章

推荐镜像

更多