Dons_个人页

Dons

文章

问答

343

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        领域设计与面向对象的区别是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        系统可持续性工作的原因是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        聚合根的工作原理是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        核心域是一成不变的么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        如何进行核心域识别？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        DDD中存在哪些组织模式和集成模式？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        DDD领域与具体开发技术有关么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        计算机是如何处理程序的？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        语言处理程序的作用是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-08
                                                
                                                        对于Python的正确认识和理解是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        定位性能瓶颈时如何解决接口延时的问题？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        开发联调阶段，接口的响应时间特别长可能存在哪些问题？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        使用 arthas 在监控时，如何避免数据量太大的情况？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        使用 arthas如何辨别耗时最久的步骤？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        定位性能瓶颈使用什么工具监控？
                                                    
                                                提交了问题
                                              
                                                    2021-12-06
                                                
                                                        如何定位接口响应时间长性能瓶颈？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        怎么使用联合训练bert textcnn loss 相加来构建bert模型蒸馏至textcnn模型?
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        该怎么联合训练 bert textcnn 蒸馏？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        怎么使用离线logit textcnn 蒸馏构建bert模型蒸馏至textcnn模型？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        co-training是由来是怎么样的？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        由soft label可以看出蒸馏有哪些优点？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        知识蒸馏中Loss公式是什么样的？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        知识蒸馏中的soft label是怎么操作的？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        在机器学习的监督学习中，我们的目标是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        运用主动学习（Active Learning，AL）的好处是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        HW方法的特点是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        基于业务场景设计的主动学习算法有哪些？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        基于委员会查询的方法的思想是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-03
                                                
                                                        LC、SM、entrop三种方法各自关注的样本类型对比是什么样的？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        在BigDecimal中如何避免损失数字的进度？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        double为什么不精确？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        使用BigDecimal的第一步是什么？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        BigDecimal可以用于哪些业务？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        在进行金额表示、金额计算等场景，double、float、BigDecimal用哪个好？
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        封装复杂度之批量接口的可拓展性中，如果需要新增参数时，是否需要修改函数签名?
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        封装复杂度之批量接口是否具有可拓展性?
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        封装复杂度之批量接口批量限制中出现FBIWarning需要怎么做?
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        封装复杂度之批量接口的提供方需要注意哪些问题?
                                                    
                                                提交了问题
                                              
                                                    2021-12-02
                                                
                                                        如果上游传入集合中元素多，会产生什么样的后果？

暂无更多信息

正在加载, 请稍后...

暂无更多信息

提交了问题 2022-04-20

Channel通道主要实现什么功能？
提交了问题 2022-04-20

规模庞大且高频变化的特征和样本，给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面？
提交了问题 2022-04-20

打造高效的分布式机器学习平台是基于什么原因？
提交了问题 2022-04-20

Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造？
提交了问题 2022-04-20

eXtreme Parameter Sever (XPS) 机器学习平台，是哪一年打造的？
提交了问题 2022-04-20

eXtreme Parameter Sever (XPS) 机器学习平台，eXtreme寓意是什么？
回答了问题 2022-04-20

阿里决定建设开源生态主要有怎样的考虑？

EPL发源于阿里云内部的业务需求，很好地支持了大规模、多样性的业务场景，在服务内部业务的过程中也积累了大量的经验，在EPL自身随着业务需求的迭代逐渐完善的同时，阿里希望能够开源给社区，将自身积累的经验和理解回馈给社区，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，为这个行业贡献我们的技术力量。阿里希望能够借助开源的工作，收到更多真实业务场景下的用户反馈，以帮助阿里持续完善和迭代，并为后续的工作投入方向提供输入。同时，阿里希望借助开源的工作，能吸引一些志同道合的同学、公司或组织来参与共建，持续完善深度学习生态。

赞0 踩0 评论0
回答了问题 2022-04-20

为能够获得更高的水平扩展，EPL还支持什么来提升训练吞吐？

EPL还支持在流水并行外嵌套数据并行来提升训练吞吐。EPL会自动推导嵌套的数据并行的并行度。最新测试结果显示，在32卡GPU规模下，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

赞0 踩0 评论0
回答了问题 2022-04-20

将以下层分别放在不同的卡上进行训练，并行化后的计算图是怎样的？

赞0 踩0 评论0
回答了问题 2022-04-20

对于Bert Large模型，结构图是怎样的？

赞0 踩0 评论0
回答了问题 2022-04-20

为什么采用了EPL的显存优化技术和计算通信加速技术？

为了节约训练资源、提高训练效率

赞0 踩0 评论0
回答了问题 2022-04-20

为什么采用数据并行+专家并行的混合并行策略来训练M6模型？

训练一个万亿/10万亿参数模型，算力需求非常大。为了降低算力需求，EPL中实现了MoE(Mixture-of-Experts)结构，MoE的主要特点是稀疏激活，使用Gating(Router)来为输入选择Top-k的expert进行计算（k常用取值1、2），从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP)，将experts拆分到多个devices上，降低单个device的显存和算力需求。同时，数据并行有利于提升训练的并发度。

赞0 踩0 评论0
回答了问题 2022-04-20

EPL适合不同场景的模型，通常在支持在阿里巴巴内的哪些业务场景？

在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。

赞0 踩0 评论0
回答了问题 2022-04-20

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

1、重算 Recomputation (Gradient Checkpoint)：正常的DNN前向过程中会生成activation，这部分activation会在后向过程中用于梯度计算。因此，在梯度生成之前，前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关，通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation，在反向传播中重算被释放的activation，用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点，在节省显存、保证性能的同时，又不影响收敛性。EPL提供了自动GC功能，用户可以一键开启GC优化功能。 2、ZeRO：在数据并行的场景下，每个卡上会存放一个模型副本，optimizer state等，这些信息在每张卡上都是一样，存在很大的冗余量。当模型变大，很容易超出单卡的显存限制。在分布式场景下，可以通过类似DeepSpeed ZeRO的思路，将optimizer state和gradient分片存在不同的卡上，从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision)：在常规的AMP里，需要维护一个FP16的weight buffer，对于参数量比较大的模型，也是不小的开销。EPL提供了一个显存优化的AMP版本，FP16只有在用的时候才cast，从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘，可以用有限的资源训练大模型。同时，EPL支持各种显存优化技术的组合使用，达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术，在性能保持不变的情况下，显存降低2.6倍。

赞0 踩0 评论0
回答了问题 2022-04-20

通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略，例如有哪些呢？

1、数据并行；2、流水并行；3、算子拆分并行；

赞0 踩0 评论0
回答了问题 2022-04-20

EPL有两类strategy，分别是什么？

replicate 和 split

赞0 踩0 评论0
回答了问题 2022-04-20

EPL框架主要分为几个模块呢？

接口层：用户的模型编程接口基于TensorFlow，同时EPL提供了易用的并行化策略表达接口，让用户可以组合使用各种混合并行策略；中间表达层：将用户模型和并行策略转化成内部表达，通过TaskGraph、VirtualDevices和策略抽象来表达各种并行策略；并行化引擎层：基于中间表达，EPL会对计算图做策略探索，进行显存/计算/通信优化，并自动生成分布式计算图； Runtime执行引擎：将分布式执行图转成TFGraph，再调用TF 的Runtime来执行；

赞0 踩0 评论0
回答了问题 2022-04-20

EPL主要技术特点有哪几点？

EPL通过丰富并行化策略、简单易用的接口、多维度的显存优化技术和优化的计算通信加速技术，让每一位算法工程师都能轻松训练分布式大模型任务。丰富的并行化策略：EPL提供了多种并行化策略及其组合策略，包含数据并行、流水并行、算子拆分并行及并行策略的组合嵌套。丰富的策略选择使得不同的模型结构都能找到最适合自己的分布式训练方式。易用性：用户的模型编程接口和训练接口均基于TensorFlow，用户只需在已有的单机单卡模型上做简单的标记，即可实现不同的分布式策略。EPL设计了两种简单的策略接口(replicate/split)来表达分布式策略及混合并行。分布式策略标记的方式让用户无需学习新的模型编程接口，仅需几行代码即可实现和转换分布式策略，极大降低了分布式框架的使用门槛。显存优化：EPL提供了多维度的显存优化技术，包含自动重算技术(Gradient Checkpoint)，ZeRO数据并行显存优化技术，CPU Offload技术等，帮助用户用更少的资源训练更大的模型。通信优化技术：EPL深度优化了分布式通信库，包括硬件拓扑感知、通信线程池、梯度分组融合、混合精度通信、梯度压缩等技术。

赞0 踩0 评论0
回答了问题 2022-04-20

EPL有什么主要特性？

多种并行策略统一：在一套分布式训练框架中支持多种并行策略（数据/流水/算子/专家并行）和其各种组合嵌套使用；接口灵活易用：用户只需添加几行代码就可以使用EPL丰富的分布式并行策略，模型代码无需修改；自动并行策略探索：算子拆分时自动探索拆分策略，流水并行时自动探索模型切分策略；分布式性能更优：提供了多维度的显存优化、计算优化，同时结合模型结构和网络拓扑进行调度和通信优化，提供高效的分布式训练。

赞0 踩0 评论0
回答了问题 2022-04-20

为了应对当前分布式训练的挑战，阿里云机器学习PAI团队自主研发了什么训练框架？

阿里云机器学习PAI团队自主研发了分布式训练框架EPL，将不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略。同时，EPL提供简洁易用的接口，用户只需添加几行annotation（注释）即可完成并行策略的配置，不需要改动模型代码。EPL也可以在用户无感的情况下，通过进行显存、计算、通信等全方位优化，打造高效的分布式训练框架。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Dons_个人页

个人介绍

擅长的技术

领域设计与面向对象的区别是什么？

系统可持续性工作的原因是什么？

聚合根的工作原理是什么？

核心域是一成不变的么？

如何进行核心域识别？

DDD中存在哪些组织模式和集成模式？

DDD领域与具体开发技术有关么？

计算机是如何处理程序的？

语言处理程序的作用是什么？

对于Python的正确认识和理解是什么？

定位性能瓶颈时如何解决接口延时的问题？

开发联调阶段，接口的响应时间特别长可能存在哪些问题？

使用 arthas 在监控时，如何避免数据量太大的情况？

使用 arthas如何辨别耗时最久的步骤？

定位性能瓶颈使用什么工具监控？

如何定位接口响应时间长性能瓶颈？

怎么使用联合训练bert textcnn loss 相加来构建bert模型蒸馏至textcnn模型?

该怎么联合训练 bert textcnn 蒸馏？

怎么使用离线logit textcnn 蒸馏构建bert模型蒸馏至textcnn模型？

co-training是由来是怎么样的？

由soft label可以看出蒸馏有哪些优点？

知识蒸馏中Loss公式是什么样的？

知识蒸馏中的soft label是怎么操作的？

在机器学习的监督学习中，我们的目标是什么？

运用主动学习（Active Learning，AL）的好处是什么？

HW方法的特点是什么？

基于业务场景设计的主动学习算法有哪些？

基于委员会查询的方法的思想是什么？

LC、SM、entrop三种方法各自关注的样本类型对比是什么样的？

在BigDecimal中如何避免损失数字的进度？

double为什么不精确？

使用BigDecimal的第一步是什么？

BigDecimal可以用于哪些业务？

在进行金额表示、金额计算等场景，double、float、BigDecimal用哪个好？

封装复杂度之批量接口的可拓展性中，如果需要新增参数时，是否需要修改函数签名?

封装复杂度之批量接口是否具有可拓展性?

封装复杂度之批量接口批量限制中出现FBIWarning需要怎么做?

封装复杂度之批量接口的提供方需要注意哪些问题?

如果上游传入集合中元素多，会产生什么样的后果？

Channel通道主要实现什么功能？

规模庞大且高频变化的特征和样本，给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面？

打造高效的分布式机器学习平台是基于什么原因？

Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造？

eXtreme Parameter Sever (XPS) 机器学习平台，是哪一年打造的？

eXtreme Parameter Sever (XPS) 机器学习平台，eXtreme寓意是什么？

阿里决定建设开源生态主要有怎样的考虑？

为能够获得更高的水平扩展，EPL还支持什么来提升训练吞吐？

将以下层分别放在不同的卡上进行训练，并行化后的计算图是怎样的？

对于Bert Large模型，结构图是怎样的？

为什么采用了EPL的显存优化技术和计算通信加速技术？

为什么采用数据并行+专家并行的混合并行策略来训练M6模型？

EPL适合不同场景的模型，通常在支持在阿里巴巴内的哪些业务场景？

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略，例如有哪些呢？

EPL有两类strategy，分别是什么？

EPL框架主要分为几个模块呢？

EPL主要技术特点有哪几点？

EPL有什么主要特性？

为了应对当前分布式训练的挑战，阿里云机器学习PAI团队自主研发了什么训练框架？