Dons_个人页

个人头像照片 Dons
个人头像照片
0
343
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
  • 提交了问题 2021-12-10

    过亿视频内容实时更新时组件库建立有什么作用?

  • 提交了问题 2021-12-10

    过亿视频内容实时更新,其特征特征库第二层二级特征计算直接消费一级特征库中的数据,此时什么来辅助完成?

  • 提交了问题 2021-12-10

    过亿视频内容实时更新时,其特征特征库第二层二级特征计算中,面向算法的接入包含了什么业务域?

  • 提交了问题 2021-12-10

    过亿视频内容实时更新时,离线数据组织方面,搜索引擎在线服务的机器是不是持久化数据?

  • 提交了问题 2021-12-10

    过亿视频内容实时更新时,其特征特征库包含哪两层?

  • 提交了问题 2021-12-10

    过亿视频内容实时更新可以利用什么架构,实现全增量架构模式,?

  • 提交了问题 2021-12-10

    设计文娱大脑面向应用侧的中间层是如何实现了面向业务领域的数据组织方式?

  • 提交了问题 2021-12-10

    在优酷场景中我们接收的内容生产端不是源头生产端,中间掺杂异源异构数据,什么是摆在用户侧实际性问题?

  • 提交了问题 2021-12-10

    亿级视频内容如何实时更新,基于搜索推荐系统数据处理链路一般包括几个步骤?

  • 提交了问题 2021-12-10

    知识图谱是什么的核心技术?

  • 提交了问题 2021-12-10

    搜索推荐系统在平台能力采用传统的数仓模式围绕什么建设,形成分层策略并将面向业务上层的数据独立出来?

  • 提交了问题 2021-12-10

    搜索推荐系统实时实体等进行处理更新时,包含了算法对这些数据的处理,不同业务域之间最终达到什么目的?

  • 提交了问题 2021-12-10

    搜索推荐系统作为在线服务,可以满足什么要求?

  • 提交了问题 2021-12-09

    GPU加速的分布式并行计算后端的搭建,可以利用什么特点及代码完成相应的计算任务?

  • 提交了问题 2021-12-09

    落地一个算法时,传统的系统数据存储方式在数据量达到一定规模后会带来哪些问题?

  • 提交了问题 2021-12-09

    消息队列使用时为了保证消息至少被消费一次,RocketMQ服务端在网络恢复后,会收到相同的消息吗?

  • 提交了问题 2021-12-09

    GPU加速的分布式并行计算后端搭建上,使用Web Server可设计成相应统一的HTTP报文格式吗?

  • 提交了问题 2021-12-09

    落地一个算法时,除了总体架构、消息队列、数据处理及数据平台选择,一个完整的机器学习平台需要提供什么?

  • 提交了问题 2021-12-09

    落地一个算法处理数据时,如何构成一个闭环的端到端的计算平台?

  • 提交了问题 2021-12-09

    训练和计算任务的Worker部署在GPU服务时,数据准备阶段有没有GPU加速则部署在CPU服务器上?

  • 提交了问题 2021-12-09

    ECS数据中台提供的Cstore数仓存放聚合后数据,从Cstore拉取预测需要的数据可解决什么问题?

  • 提交了问题 2021-12-09

    落地一个算法处理数据时使用的Blink是什么?

  • 提交了问题 2021-12-09

    落地一个算法在处理数据时,常会因为数据太多出现信息过载的情况,此时应该怎么做?

  • 提交了问题 2021-12-09

    落地一个算法在处理数据上,除了数据存储的问题还有什么比较重要?

  • 提交了问题 2021-12-09

    使用Redis数据库记录每条消息Message Key用于幂等性,消费时发现有重复投递的信息会怎样?

  • 提交了问题 2021-12-09

    落地一个算法时需要整个平台的搭建涉及内部多个业务团队的合作,如何实现一个端到端的平台达成了业务目标?

  • 提交了问题 2021-12-09

    MaxComputer实时性较差,SLS不适合大规模并发访问且预测数据读取性能也无法满足,该如何选?

  • 提交了问题 2021-12-09

    落地一个算法时使用分布式消息队列,如后端系统出现故障消息会不会丢失?

  • 提交了问题 2021-12-09

    落地一个算法时一个是分布式消息队列的使用基本可以实现什么?

  • 提交了问题 2021-12-09

    落地一个算法时,通常用Blink等实时计算引擎做什么?

  • 提交了问题 2021-12-09

    在云计算环境下,虚拟机热迁移技术,对什么的要求比较高?

  • 提交了问题 2021-12-09

    在云计算环境下,可以根据什么趋势来寻找到最合适的时间窗口完成虚拟机热迁移的操作?

  • 提交了问题 2021-12-08

    跟踪算法的观测模型之一,判别式方法被进一步分成几类?

  • 提交了问题 2021-12-08

    跟踪算法的观测模型之一,判别式方法的侧重是什么?

  • 提交了问题 2021-12-08

    生成式方法一般被分为几类?

  • 提交了问题 2021-12-08

    跟踪算法的分类以及各分类下的一些经典算法都有哪些?

  • 提交了问题 2021-12-08

    如何做观测模型的匹配?

  • 提交了问题 2021-12-08

    如何做观测模型的决策?

  • 提交了问题 2021-12-08

    目前跟踪问题研究的主流是什么?

  • 提交了问题 2021-12-08

    颜色特征和梯度直方图表达方式是什么?

  • 提交了问题 2021-12-08

    图像特征进行处理的主流方法是什么?

  • 提交了问题 2021-12-08

    如何进行候选框的生成?

  • 提交了问题 2021-12-08

    广泛被计算机视觉研究中所采用选框是什么?优点是什么?

  • 提交了问题 2021-12-08

    如何解决运动模型中帧的问题?

  • 提交了问题 2021-12-08

    跟踪系统架构如何应用假设检验模型?

  • 提交了问题 2021-12-08

    视觉跟踪系统构架中各模型的输入与输出工作原理是什么?

  • 提交了问题 2021-12-08

    跟踪系统的流程是什么?

  • 提交了问题 2021-12-08

    视觉目标跟踪主要需要关注什么?

  • 提交了问题 2021-12-08

    视觉目标跟踪中的“跟踪”具体是指什么?

  • 提交了问题 2021-12-08

    视觉目标跟踪的定义是什么?

暂无更多信息
正在加载, 请稍后...
暂无更多信息
  • 提交了问题 2022-04-20

    Channel通道主要实现什么功能?

  • 提交了问题 2022-04-20

    规模庞大且高频变化的特征和样本,给分布式机器学习平台的设计带来的挑战具体可以归结哪几个方面?

  • 提交了问题 2022-04-20

    打造高效的分布式机器学习平台是基于什么原因?

  • 提交了问题 2022-04-20

    Parameter Sever (XPS) 机器学习平台是阿里哪个团队打造?

  • 提交了问题 2022-04-20

    eXtreme Parameter Sever (XPS) 机器学习平台,是哪一年打造的?

  • 提交了问题 2022-04-20

    eXtreme Parameter Sever (XPS) 机器学习平台,eXtreme寓意是什么?

  • 回答了问题 2022-04-20

    阿里决定建设开源生态主要有怎样的考虑?

    EPL发源于阿里云内部的业务需求,很好地支持了大规模、多样性的业务场景,在服务内部业务的过程中也积累了大量的经验,在EPL自身随着业务需求的迭代逐渐完善的同时,阿里希望能够开源给社区,将自身积累的经验和理解回馈给社区,希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建,为这个行业贡献我们的技术力量。 阿里希望能够借助开源的工作,收到更多真实业务场景下的用户反馈,以帮助阿里持续完善和迭代,并为后续的工作投入方向提供输入。 同时,阿里希望借助开源的工作,能吸引一些志同道合的同学、公司或组织来参与共建,持续完善深度学习生态。
    踩0 评论0
  • 回答了问题 2022-04-20

    为能够获得更高的水平扩展,EPL还支持什么来提升训练吞吐?

    EPL还支持在流水并行外嵌套数据并行来提升训练吞吐。EPL会自动推导嵌套的数据并行的并行度。最新测试结果显示,在32卡GPU规模下,使用EPL的流水+数据并行对Bert Large模型进行优化,相比于数据并行,训练速度提升了66%。
    踩0 评论0
  • 回答了问题 2022-04-20

    将以下层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

    踩0 评论0
  • 回答了问题 2022-04-20

    对于Bert Large模型,结构图是怎样的?

    踩0 评论0
  • 回答了问题 2022-04-20

    为什么采用了EPL的显存优化技术和计算通信加速技术?

    为了节约训练资源、提高训练效率
    踩0 评论0
  • 回答了问题 2022-04-20

    为什么采用数据并行+专家并行的混合并行策略来训练M6模型?

    训练一个万亿/10万亿参数模型,算力需求非常大。为了降低算力需求,EPL中实现了MoE(Mixture-of-Experts)结构,MoE的主要特点是稀疏激活,使用Gating(Router)来为输入选择Top-k的expert进行计算(k常用取值1、2),从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP),将experts拆分到多个devices上,降低单个device的显存和算力需求。同时,数据并行有利于提升训练的并发度。
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL适合不同场景的模型,通常在支持在阿里巴巴内的哪些业务场景?

    在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。
    踩0 评论0
  • 回答了问题 2022-04-20

    当模型增长,GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术,具体有哪些呢?

    1、重算 Recomputation (Gradient Checkpoint):正常的DNN前向过程中会生成activation,这部分activation会在后向过程中用于梯度计算。因此,在梯度生成之前,前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关,通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation,在反向传播中重算被释放的activation,用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点,在节省显存、保证性能的同时,又不影响收敛性。EPL提供了自动GC功能,用户可以一键开启GC优化功能。 2、ZeRO:在数据并行的场景下,每个卡上会存放一个模型副本,optimizer state等,这些信息在每张卡上都是一样,存在很大的冗余量。当模型变大,很容易超出单卡的显存限制。在分布式场景下,可以通过类似DeepSpeed ZeRO的思路,将optimizer state和gradient分片存在不同的卡上,从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision):在常规的AMP里,需要维护一个FP16的weight buffer,对于参数量比较大的模型,也是不小的开销。EPL提供了一个显存优化的AMP版本,FP16只有在用的时候才cast,从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘,可以用有限的资源训练大模型。 同时,EPL支持各种显存优化技术的组合使用,达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术,在性能保持不变的情况下,显存降低2.6倍。
    踩0 评论0
  • 回答了问题 2022-04-20

    通过replicate 和 split这两种并行化接口可以表达出各种不同的并行化策略,例如有哪些呢?

    1、数据并行;2、流水并行;3、算子拆分并行;
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL有两类strategy,分别是什么?

    replicate 和 split
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL框架主要分为几个模块呢?

    接口层:用户的模型编程接口基于TensorFlow,同时EPL提供了易用的并行化策略表达接口,让用户可以组合使用各种混合并行策略; 中间表达层:将用户模型和并行策略转化成内部表达,通过TaskGraph、VirtualDevices和策略抽象来表达各种并行策略; 并行化引擎层:基于中间表达,EPL会对计算图做策略探索,进行显存/计算/通信优化,并自动生成分布式计算图; Runtime执行引擎:将分布式执行图转成TFGraph,再调用TF 的Runtime来执行;
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL主要技术特点有哪几点?

    EPL通过丰富并行化策略、简单易用的接口、多维度的显存优化技术和优化的计算通信加速技术,让每一位算法工程师都能轻松训练分布式大模型任务。 丰富的并行化策略:EPL提供了多种并行化策略及其组合策略,包含数据并行、流水并行、算子拆分并行及并行策略的组合嵌套。丰富的策略选择使得不同的模型结构都能找到最适合自己的分布式训练方式。 易用性:用户的模型编程接口和训练接口均基于TensorFlow,用户只需在已有的单机单卡模型上做简单的标记,即可实现不同的分布式策略。EPL设计了两种简单的策略接口(replicate/split)来表达分布式策略及混合并行。分布式策略标记的方式让用户无需学习新的模型编程接口,仅需几行代码即可实现和转换分布式策略,极大降低了分布式框架的使用门槛。 显存优化:EPL提供了多维度的显存优化技术,包含自动重算技术(Gradient Checkpoint),ZeRO数据并行显存优化技术,CPU Offload技术等,帮助用户用更少的资源训练更大的模型。 通信优化技术:EPL深度优化了分布式通信库,包括硬件拓扑感知、通信线程池、梯度分组融合、混合精度通信、梯度压缩等技术。
    踩0 评论0
  • 回答了问题 2022-04-20

    EPL有什么主要特性?

    多种并行策略统一:在一套分布式训练框架中支持多种并行策略(数据/流水/算子/专家并行)和其各种组合嵌套使用; 接口灵活易用:用户只需添加几行代码就可以使用EPL丰富的分布式并行策略,模型代码无需修改; 自动并行策略探索:算子拆分时自动探索拆分策略,流水并行时自动探索模型切分策略; 分布式性能更优:提供了多维度的显存优化、计算优化,同时结合模型结构和网络拓扑进行调度和通信优化,提供高效的分布式训练。
    踩0 评论0
  • 回答了问题 2022-04-20

    为了应对当前分布式训练的挑战,阿里云机器学习PAI团队自主研发了什么训练框架?

    阿里云机器学习PAI团队自主研发了分布式训练框架EPL,将不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略。同时,EPL提供简洁易用的接口,用户只需添加几行annotation(注释)即可完成并行策略的配置,不需要改动模型代码。EPL也可以在用户无感的情况下,通过进行显存、计算、通信等全方位优化,打造高效的分布式训练框架。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息