Dons_个人页

Dons

文章

问答

343

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2022年04月

04.18 10:23:47

提交了问题 2022-04-18 10:23:47

Koordinato通过怎样一套解决方案实现解决多样工作负载混部在一个集群、节点场景下的调度？
04.18 10:22:58

提交了问题 2022-04-18 10:22:58

Kubernetes 良好的扩展性能帮助用户解决什么？
04.15 18:01:09

提交了问题 2022-04-15 18:01:09

超卖的基本思想是去利用什么来运行低优先级的任务？
04.15 18:00:51

提交了问题 2022-04-15 18:00:51

阿里巴巴坚定的推进混部技术，主要是哪几方面带来的问题？
04.15 18:00:34

提交了问题 2022-04-15 18:00:34

为解决以上挑战，做了哪些设计了解决方案
04.15 17:59:59

提交了问题 2022-04-15 17:59:59

混部需要一套完整、自闭环的调度回路，但在企业应用混部的过程中，将要面临哪两大挑战？
04.15 17:59:48

提交了问题 2022-04-15 17:59:48

Koordinato通过怎样一套解决方案实现解决多样工作负载混部在一个集群、节点场景下的调度、运行时
04.15 17:59:33

提交了问题 2022-04-15 17:59:33

Kubernetes 良好的扩展性能帮助用户解决什么？
04.15 17:58:40

提交了问题 2022-04-15 17:58:40

Koordinator 是什么？
04.15 17:58:19

提交了问题 2022-04-15 17:58:19

混部天平均 CPU 利用率有多少？
04.15 17:57:58

提交了问题 2022-04-15 17:57:58

混部是什么？

2021年12月

12.14 19:05:32

提交了问题 2021-12-14 19:05:32

什么是线性回归？
12.14 19:03:07

提交了问题 2021-12-14 19:03:07

如何评估算法？
12.14 19:02:22

提交了问题 2021-12-14 19:02:22

训练机器中，如何准备算法？
12.14 19:01:41

提交了问题 2021-12-14 19:01:41

在训练机器中，为什么准备数据环节非常重要？
12.14 18:59:51

提交了问题 2021-12-14 18:59:51

什么是机器学习？
12.14 18:57:03

提交了问题 2021-12-14 18:57:03

整体深度强化学习网络框架是什么？
12.14 18:55:57

提交了问题 2021-12-14 18:55:57

在问题建模中选取怎样的网络？
12.14 18:55:16

提交了问题 2021-12-14 18:55:16

在深度强化学习如何进行问题建模？
12.14 18:53:48

提交了问题 2021-12-14 18:53:48

如何设计基于规则的模式空间选择算法？
12.14 18:51:59

提交了问题 2021-12-14 18:51:59

对于一个大型的商用时序数据压缩算法，需要重点关注什么？
12.14 18:51:17

提交了问题 2021-12-14 18:51:17

常见的时序数据压缩方法有哪些？
12.14 18:50:43

提交了问题 2021-12-14 18:50:43

机器强化学习有几类？
12.14 18:48:46

提交了问题 2021-12-14 18:48:46

时序数据的功能是什么？
12.14 18:48:12

提交了问题 2021-12-14 18:48:12

什么是时序数据？
12.14 18:34:10

提交了问题 2021-12-14 18:34:10

单独时效性的标注原则是什么？
12.14 18:33:35

提交了问题 2021-12-14 18:33:35

时效性的打分原则是什么？
12.14 18:31:09

提交了问题 2021-12-14 18:31:09

神马搜索比较合理的时效性方案是什么？
12.14 18:30:04

提交了问题 2021-12-14 18:30:04

如何获取需求的时间敏感度？
12.14 18:29:20

提交了问题 2021-12-14 18:29:20

时间敏感度经历过几个版本？
12.14 18:28:48

提交了问题 2021-12-14 18:28:48

网页中什么样的页面信息会失效？
12.14 18:28:20

提交了问题 2021-12-14 18:28:20

时间敏感度有几种模型？
12.14 18:27:09

提交了问题 2021-12-14 18:27:09

网页的时效性半衰期是什么？
12.14 18:25:05

提交了问题 2021-12-14 18:25:05

在做泛时效性项目之前做突发时效性，要经历哪些阶段？
12.14 18:24:28

提交了问题 2021-12-14 18:24:28

突发时效性经历过哪几个阶段？
12.14 18:23:55

提交了问题 2021-12-14 18:23:55

常见的视频资源播放和下载问题有哪些？
12.14 18:23:27

提交了问题 2021-12-14 18:23:27

神马搜索的打分流程是什么？
12.14 18:18:08

提交了问题 2021-12-14 18:18:08

制定时效性评估标准的原因是什么？
12.14 18:17:30

提交了问题 2021-12-14 18:17:30

时效性半衰期和时间敏感度的强度情况是什么？
12.14 18:16:58

提交了问题 2021-12-14 18:16:58

时效性从需求出现的时间分布上可以分为几类？
12.10 22:00:20

提交了问题 2021-12-10 22:00:20

过亿视频内容实时更新是如何解决 UDF 业务逻辑的一致性和可移植性问题？
12.10 21:56:27

提交了问题 2021-12-10 21:56:27

过亿视频内容实时更新在计算和更新策略对于一个实体数据或关系数据通常采用什么操作？
12.10 21:55:07

提交了问题 2021-12-10 21:55:07

过亿视频内容实时更新在计算和更新策略上更新一个业务核心诉求是什么？
12.10 21:53:25

提交了问题 2021-12-10 21:53:25

过亿视频内容实时更新采用什么计算平台实现特征计算和索引更新?
12.10 21:50:52

提交了问题 2021-12-10 21:50:52

过亿视频内容实时更新采用什么标签实现知识图谱储存和组织？
12.10 21:48:07

提交了问题 2021-12-10 21:48:07

过亿视频内容实时更新Trace&Debug 中，为了什么将不同系统数据按 uuid 和实体id 聚合
12.10 21:45:13

提交了问题 2021-12-10 21:45:13

过亿视频内容实时更新，组件库将业务逻辑抽象成简单的基于 UDF 的算术表达式来组织有什么优势?
12.10 21:44:33

提交了问题 2021-12-10 21:44:33

过亿视频内容实时更新时组件库建立有什么作用?
12.10 21:43:25

提交了问题 2021-12-10 21:43:25

过亿视频内容实时更新，其特征特征库第二层二级特征计算直接消费一级特征库中的数据，此时什么来辅助完成?
12.10 21:42:30

提交了问题 2021-12-10 21:42:30

过亿视频内容实时更新时，其特征特征库第二层二级特征计算中，面向算法的接入包含了什么业务域?

...

正在加载, 请稍后...

暂无更多信息

提交了问题 2022-04-20

Channel通道主要实现什么功能？
提交了问题 2022-04-20

规模庞大且高频变化的特征和样本，给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面？
提交了问题 2022-04-20

打造高效的分布式机器学习平台是基于什么原因？
提交了问题 2022-04-20

Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造？
提交了问题 2022-04-20

eXtreme Parameter Sever (XPS) 机器学习平台，是哪一年打造的？
提交了问题 2022-04-20

eXtreme Parameter Sever (XPS) 机器学习平台，eXtreme寓意是什么？
回答了问题 2022-04-20

阿里决定建设开源生态主要有怎样的考虑？

EPL发源于阿里云内部的业务需求，很好地支持了大规模、多样性的业务场景，在服务内部业务的过程中也积累了大量的经验，在EPL自身随着业务需求的迭代逐渐完善的同时，阿里希望能够开源给社区，将自身积累的经验和理解回馈给社区，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，为这个行业贡献我们的技术力量。阿里希望能够借助开源的工作，收到更多真实业务场景下的用户反馈，以帮助阿里持续完善和迭代，并为后续的工作投入方向提供输入。同时，阿里希望借助开源的工作，能吸引一些志同道合的同学、公司或组织来参与共建，持续完善深度学习生态。

赞0 踩0 评论0
回答了问题 2022-04-20

为能够获得更高的水平扩展，EPL还支持什么来提升训练吞吐？

EPL还支持在流水并行外嵌套数据并行来提升训练吞吐。EPL会自动推导嵌套的数据并行的并行度。最新测试结果显示，在32卡GPU规模下，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

赞0 踩0 评论0
回答了问题 2022-04-20

将以下层分别放在不同的卡上进行训练，并行化后的计算图是怎样的？

赞0 踩0 评论0
回答了问题 2022-04-20

对于Bert Large模型，结构图是怎样的？

赞0 踩0 评论0
回答了问题 2022-04-20

为什么采用了EPL的显存优化技术和计算通信加速技术？

为了节约训练资源、提高训练效率

赞0 踩0 评论0
回答了问题 2022-04-20

为什么采用数据并行+专家并行的混合并行策略来训练M6模型？

训练一个万亿/10万亿参数模型，算力需求非常大。为了降低算力需求，EPL中实现了MoE(Mixture-of-Experts)结构，MoE的主要特点是稀疏激活，使用Gating(Router)来为输入选择Top-k的expert进行计算（k常用取值1、2），从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP)，将experts拆分到多个devices上，降低单个device的显存和算力需求。同时，数据并行有利于提升训练的并发度。

赞0 踩0 评论0
回答了问题 2022-04-20

EPL适合不同场景的模型，通常在支持在阿里巴巴内的哪些业务场景？

在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。

赞0 踩0 评论0
回答了问题 2022-04-20

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

1、重算 Recomputation (Gradient Checkpoint)：正常的DNN前向过程中会生成activation，这部分activation会在后向过程中用于梯度计算。因此，在梯度生成之前，前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关，通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation，在反向传播中重算被释放的activation，用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点，在节省显存、保证性能的同时，又不影响收敛性。EPL提供了自动GC功能，用户可以一键开启GC优化功能。 2、ZeRO：在数据并行的场景下，每个卡上会存放一个模型副本，optimizer state等，这些信息在每张卡上都是一样，存在很大的冗余量。当模型变大，很容易超出单卡的显存限制。在分布式场景下，可以通过类似DeepSpeed ZeRO的思路，将optimizer state和gradient分片存在不同的卡上，从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision)：在常规的AMP里，需要维护一个FP16的weight buffer，对于参数量比较大的模型，也是不小的开销。EPL提供了一个显存优化的AMP版本，FP16只有在用的时候才cast，从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘，可以用有限的资源训练大模型。同时，EPL支持各种显存优化技术的组合使用，达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术，在性能保持不变的情况下，显存降低2.6倍。

赞0 踩0 评论0
回答了问题 2022-04-20

通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略，例如有哪些呢？

1、数据并行；2、流水并行；3、算子拆分并行；

赞0 踩0 评论0
回答了问题 2022-04-20

EPL有两类strategy，分别是什么？

replicate 和 split

赞0 踩0 评论0
回答了问题 2022-04-20

EPL框架主要分为几个模块呢？

接口层：用户的模型编程接口基于TensorFlow，同时EPL提供了易用的并行化策略表达接口，让用户可以组合使用各种混合并行策略；中间表达层：将用户模型和并行策略转化成内部表达，通过TaskGraph、VirtualDevices和策略抽象来表达各种并行策略；并行化引擎层：基于中间表达，EPL会对计算图做策略探索，进行显存/计算/通信优化，并自动生成分布式计算图； Runtime执行引擎：将分布式执行图转成TFGraph，再调用TF 的Runtime来执行；

赞0 踩0 评论0
回答了问题 2022-04-20

EPL主要技术特点有哪几点？

EPL通过丰富并行化策略、简单易用的接口、多维度的显存优化技术和优化的计算通信加速技术，让每一位算法工程师都能轻松训练分布式大模型任务。丰富的并行化策略：EPL提供了多种并行化策略及其组合策略，包含数据并行、流水并行、算子拆分并行及并行策略的组合嵌套。丰富的策略选择使得不同的模型结构都能找到最适合自己的分布式训练方式。易用性：用户的模型编程接口和训练接口均基于TensorFlow，用户只需在已有的单机单卡模型上做简单的标记，即可实现不同的分布式策略。EPL设计了两种简单的策略接口(replicate/split)来表达分布式策略及混合并行。分布式策略标记的方式让用户无需学习新的模型编程接口，仅需几行代码即可实现和转换分布式策略，极大降低了分布式框架的使用门槛。显存优化：EPL提供了多维度的显存优化技术，包含自动重算技术(Gradient Checkpoint)，ZeRO数据并行显存优化技术，CPU Offload技术等，帮助用户用更少的资源训练更大的模型。通信优化技术：EPL深度优化了分布式通信库，包括硬件拓扑感知、通信线程池、梯度分组融合、混合精度通信、梯度压缩等技术。

赞0 踩0 评论0
回答了问题 2022-04-20

EPL有什么主要特性？

多种并行策略统一：在一套分布式训练框架中支持多种并行策略（数据/流水/算子/专家并行）和其各种组合嵌套使用；接口灵活易用：用户只需添加几行代码就可以使用EPL丰富的分布式并行策略，模型代码无需修改；自动并行策略探索：算子拆分时自动探索拆分策略，流水并行时自动探索模型切分策略；分布式性能更优：提供了多维度的显存优化、计算优化，同时结合模型结构和网络拓扑进行调度和通信优化，提供高效的分布式训练。

赞0 踩0 评论0
回答了问题 2022-04-20

为了应对当前分布式训练的挑战，阿里云机器学习PAI团队自主研发了什么训练框架？

阿里云机器学习PAI团队自主研发了分布式训练框架EPL，将不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略。同时，EPL提供简洁易用的接口，用户只需添加几行annotation（注释）即可完成并行策略的配置，不需要改动模型代码。EPL也可以在用户无感的情况下，通过进行显存、计算、通信等全方位优化，打造高效的分布式训练框架。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Dons_个人页

个人介绍

擅长的技术

Channel通道主要实现什么功能？

规模庞大且高频变化的特征和样本，给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面？

打造高效的分布式机器学习平台是基于什么原因？

Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造？

eXtreme Parameter Sever (XPS) 机器学习平台，是哪一年打造的？

eXtreme Parameter Sever (XPS) 机器学习平台，eXtreme寓意是什么？

阿里决定建设开源生态主要有怎样的考虑？

为能够获得更高的水平扩展，EPL还支持什么来提升训练吞吐？

将以下层分别放在不同的卡上进行训练，并行化后的计算图是怎样的？

对于Bert Large模型，结构图是怎样的？

为什么采用了EPL的显存优化技术和计算通信加速技术？

为什么采用数据并行+专家并行的混合并行策略来训练M6模型？

EPL适合不同场景的模型，通常在支持在阿里巴巴内的哪些业务场景？

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略，例如有哪些呢？

EPL有两类strategy，分别是什么？

EPL框架主要分为几个模块呢？

EPL主要技术特点有哪几点？

EPL有什么主要特性？

为了应对当前分布式训练的挑战，阿里云机器学习PAI团队自主研发了什么训练框架？