开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DAG 2.0 展望在哪些方面有所突破?

已解决

DAG 2.0 展望在哪些方面有所突破?

展开
收起
游客lmkkns5ck6auu 2022-08-10 14:31:28 374 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    在双十一值班的过程中,我们依然看到了大促场景下因为不同的数据分布特点,数据的倾斜/膨胀对于分布式作业整体的完成时间影响非常大。而这些问题在 DAG 2.0 完备的动态图调度和运行能力上,都能得到较好的解决,相关功能正在排期上线中。一个典型的例子是 dynamic partition insert 的场景,在某个高优先级作业的场景上,一张重要的业务表直接采用动态分区的方式导入数据导致表文件数过多,后续基线频繁访问该表读取数据导致 pangu master 持续被打爆,集群处于不可用状态。

    采用 DAG 2.0 的 Adaptive Shuffle 功能之后,线下验证作业运行时间由 30+小时降低到小于 30 分钟,而产生的文件数相比于关闭 reshuffle 的方式降低了一个数量级,在保障业务数据及时产出的前提下,能极大缓解 pangu master 的压力。动态分区场景在弹内生产和公共云生产都有广阔的应用场景,随着 Adaptive Shuffle 的上线,dynamic insert 将是第一个解决的比较彻底的数据倾斜场景。

    此外,DAG 2.0 也持续探索其他数据倾斜(data skew)的处理,例如 join skew 等,相信随着在 2.0 上更多优化功能的开发,我们的执行引擎能做到更动态,更智能化,包括数据倾斜问题在内的一众线上痛点问题,将可以得到更好的解决。今天最好的表现,是明天最低的要求。我们相信 2020 年的双十一,在面对更大的数据处理量时,计算平台的双十一保障能够更加的自动化,通过分布式作业运行中的动态化调整,在更少人工干预的前提下完成。

    以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873

    2022-08-11 10:59:08
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
大规模分布式机器学习系统设计和应用经验分享 立即下载
大规模分布式机器学习-系统设计与应用经验分享 立即下载
图计算专场—大规模分布式图计算、学习和推理技术 及创新应用论 立即下载