Dons_个人页

个人头像照片 Dons
个人头像照片
0
343
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2022年04月

2021年12月

正在加载, 请稍后...
暂无更多信息
  • 提交了问题 2022-04-20

    Channel通道主要实现什么功能?

  • 提交了问题 2022-04-20

    规模庞大且高频变化的特征和样本,给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面?

  • 提交了问题 2022-04-20

    打造高效的分布式机器学习平台是基于什么原因?

  • 提交了问题 2022-04-20

    Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造?

  • 提交了问题 2022-04-20

    eXtreme Parameter Sever (XPS) 机器学习平台,是哪一年打造的?

  • 提交了问题 2022-04-20

    eXtreme Parameter Sever (XPS) 机器学习平台,eXtreme寓意是什么?

  • 回答了问题 2022-04-20

    阿里决定建设开源生态主要有怎样的考虑?

    EPL发源于阿里云内部的业务需求,很好地支持了大规模、多样性的业务场景,在服务内部业务的过程中也积累了大量的经验,在EPL自身随着业务需求的迭代逐渐完善的同时,阿里希望能够开源给社区,将自身积累的经验和理解回馈给社区,希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建,为这个行业贡献我们的技术力量。 阿里希望能够借助开源的工作,收到更多真实业务场景下的用户反馈,以帮助阿里持续完善和迭代,并为后续的工作投入方向提供输入。 同时,阿里希望借助开源的工作,能吸引一些志同道合的同学、公司或组织来参与共建,持续完善深度学习生态。
    踩0 评论0
  • 回答了问题 2022-04-20

    为能够获得更高的水平扩展,EPL还支持什么来提升训练吞吐?

    EPL还支持在流水并行外嵌套数据并行来提升训练吞吐。EPL会自动推导嵌套的数据并行的并行度。最新测试结果显示,在32卡GPU规模下,使用EPL的流水+数据并行对Bert Large模型进行优化,相比于数据并行,训练速度提升了66%。
    踩0 评论0
  • 回答了问题 2022-04-20

    将以下层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

    踩0 评论0
  • 回答了问题 2022-04-20

    对于Bert Large模型,结构图是怎样的?

    踩0 评论0
  • 回答了问题 2022-04-20

    为什么采用了EPL的显存优化技术和计算通信加速技术?

    为了节约训练资源、提高训练效率
    踩0 评论0
  • 回答了问题 2022-04-20

    为什么采用数据并行+专家并行的混合并行策略来训练M6模型?

    训练一个万亿/10万亿参数模型,算力需求非常大。为了降低算力需求,EPL中实现了MoE(Mixture-of-Experts)结构,MoE的主要特点是稀疏激活,使用Gating(Router)来为输入选择Top-k的expert进行计算(k常用取值1、2),从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP),将experts拆分到多个devices上,降低单个device的显存和算力需求。同时,数据并行有利于提升训练的并发度。
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL适合不同场景的模型,通常在支持在阿里巴巴内的哪些业务场景?

    在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。
    踩0 评论0
  • 回答了问题 2022-04-20

    当模型增长,GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术,具体有哪些呢?

    1、重算 Recomputation (Gradient Checkpoint):正常的DNN前向过程中会生成activation,这部分activation会在后向过程中用于梯度计算。因此,在梯度生成之前,前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关,通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation,在反向传播中重算被释放的activation,用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点,在节省显存、保证性能的同时,又不影响收敛性。EPL提供了自动GC功能,用户可以一键开启GC优化功能。 2、ZeRO:在数据并行的场景下,每个卡上会存放一个模型副本,optimizer state等,这些信息在每张卡上都是一样,存在很大的冗余量。当模型变大,很容易超出单卡的显存限制。在分布式场景下,可以通过类似DeepSpeed ZeRO的思路,将optimizer state和gradient分片存在不同的卡上,从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision):在常规的AMP里,需要维护一个FP16的weight buffer,对于参数量比较大的模型,也是不小的开销。EPL提供了一个显存优化的AMP版本,FP16只有在用的时候才cast,从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘,可以用有限的资源训练大模型。 同时,EPL支持各种显存优化技术的组合使用,达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术,在性能保持不变的情况下,显存降低2.6倍。
    踩0 评论0
  • 回答了问题 2022-04-20

    通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略,例如有哪些呢?

    1、数据并行;2、流水并行;3、算子拆分并行;
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL有两类strategy,分别是什么?

    replicate 和 split
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL框架主要分为几个模块呢?

    接口层:用户的模型编程接口基于TensorFlow,同时EPL提供了易用的并行化策略表达接口,让用户可以组合使用各种混合并行策略; 中间表达层:将用户模型和并行策略转化成内部表达,通过TaskGraph、VirtualDevices和策略抽象来表达各种并行策略; 并行化引擎层:基于中间表达,EPL会对计算图做策略探索,进行显存/计算/通信优化,并自动生成分布式计算图; Runtime执行引擎:将分布式执行图转成TFGraph,再调用TF 的Runtime来执行;
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL主要技术特点有哪几点?

    EPL通过丰富并行化策略、简单易用的接口、多维度的显存优化技术和优化的计算通信加速技术,让每一位算法工程师都能轻松训练分布式大模型任务。 丰富的并行化策略:EPL提供了多种并行化策略及其组合策略,包含数据并行、流水并行、算子拆分并行及并行策略的组合嵌套。丰富的策略选择使得不同的模型结构都能找到最适合自己的分布式训练方式。 易用性:用户的模型编程接口和训练接口均基于TensorFlow,用户只需在已有的单机单卡模型上做简单的标记,即可实现不同的分布式策略。EPL设计了两种简单的策略接口(replicate/split)来表达分布式策略及混合并行。分布式策略标记的方式让用户无需学习新的模型编程接口,仅需几行代码即可实现和转换分布式策略,极大降低了分布式框架的使用门槛。 显存优化:EPL提供了多维度的显存优化技术,包含自动重算技术(Gradient Checkpoint),ZeRO数据并行显存优化技术,CPU Offload技术等,帮助用户用更少的资源训练更大的模型。 通信优化技术:EPL深度优化了分布式通信库,包括硬件拓扑感知、通信线程池、梯度分组融合、混合精度通信、梯度压缩等技术。
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL有什么主要特性?

    多种并行策略统一:在一套分布式训练框架中支持多种并行策略(数据/流水/算子/专家并行)和其各种组合嵌套使用; 接口灵活易用:用户只需添加几行代码就可以使用EPL丰富的分布式并行策略,模型代码无需修改; 自动并行策略探索:算子拆分时自动探索拆分策略,流水并行时自动探索模型切分策略; 分布式性能更优:提供了多维度的显存优化、计算优化,同时结合模型结构和网络拓扑进行调度和通信优化,提供高效的分布式训练。
    踩0 评论0
  • 回答了问题 2022-04-20

    为了应对当前分布式训练的挑战,阿里云机器学习PAI团队自主研发了什么训练框架?

    阿里云机器学习PAI团队自主研发了分布式训练框架EPL,将不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略。同时,EPL提供简洁易用的接口,用户只需添加几行annotation(注释)即可完成并行策略的配置,不需要改动模型代码。EPL也可以在用户无感的情况下,通过进行显存、计算、通信等全方位优化,打造高效的分布式训练框架。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息