模型开发者您好,我想使用您的训练集进行学术研究,请问该数据集是否开源?感谢您的回答!
EPL(Easy Parallel Library)是阿里巴巴最近开源的,统一了多种并行策略、灵活易用的自研分布式深度学习训练框架。
EPL通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。
EPL提供简洁易用的接口,用户只需添加几行annotation(注释)即可完成并行策略的配置,不需要改动模型代码。EPL也可以在用户无感的情况下,通过进行显存、计算、通信等全方位优化,打造高效的分布式训练框架。
在一套分布式训练框架中支持多种并行策略(数据/流水/算子/专家并行)和其各种组合嵌套使用;
用户只需添加几行代码就可以使用EPL丰富的分布式并行策略,模型代码无需修改;
算子拆分时自动探索拆分策略,流水并行时自动探索模型切分策略;
提供了多维度的显存优化、计算优化,同时结合模型结构和网络拓扑进行调度和通信优化,提供高效的分布式训练。
EPL通过丰富并行化策略、简单易用的接口、多维度的显存优化技术和优化的计算通信加速技术,让每一位算法工程师都能轻松训练分布式大模型任务。
EPL提供了多种并行化策略及其组合策略,包含数据并行、流水并行、算子拆分并行及并行策略的组合嵌套。丰富的策略选择使得不同的模型结构都能找到最适合自己的分布式训练方式。
用户的模型编程接口和训练接口均基于TensorFlow,用户只需在已有的单机单卡模型上做简单的标记,即可实现不同的分布式策略。EPL设计了两种简单的策略接口(replicate/split)来表达分布式策略及混合并行。分布式策略标记的方式让用户无需学习新的模型编程接口,仅需几行代码即可实现和转换分布式策略,极大降低了分布式框架的使用门槛。
EPL提供了多维度的显存优化技术,包含自动重算技术(Gradient Checkpoint),ZeRO数据并行显存优化技术,CPU Offload技术等,帮助用户用更少的资源训练更大的模型。