备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

DAG 2.0 展望在哪些方面有所突破？

已解决

DAG 2.0 展望在哪些方面有所突破？

展开

收起

游客lmkkns5ck6auu 2022-08-10 14:31:28 420 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

在双十一值班的过程中，我们依然看到了大促场景下因为不同的数据分布特点，数据的倾斜/膨胀对于分布式作业整体的完成时间影响非常大。而这些问题在 DAG 2.0 完备的动态图调度和运行能力上，都能得到较好的解决，相关功能正在排期上线中。一个典型的例子是 dynamic partition insert 的场景，在某个高优先级作业的场景上，一张重要的业务表直接采用动态分区的方式导入数据导致表文件数过多，后续基线频繁访问该表读取数据导致 pangu master 持续被打爆，集群处于不可用状态。

采用 DAG 2.0 的 Adaptive Shuffle 功能之后，线下验证作业运行时间由 30+小时降低到小于 30 分钟，而产生的文件数相比于关闭 reshuffle 的方式降低了一个数量级，在保障业务数据及时产出的前提下，能极大缓解 pangu master 的压力。动态分区场景在弹内生产和公共云生产都有广阔的应用场景，随着 Adaptive Shuffle 的上线，dynamic insert 将是第一个解决的比较彻底的数据倾斜场景。

此外，DAG 2.0 也持续探索其他数据倾斜（data skew）的处理，例如 join skew 等，相信随着在 2.0 上更多优化功能的开发，我们的执行引擎能做到更动态，更智能化，包括数据倾斜问题在内的一众线上痛点问题，将可以得到更好的解决。今天最好的表现，是明天最低的要求。我们相信 2020 年的双十一，在面对更大的数据处理量时，计算平台的双十一保障能够更加的自动化，通过分布式作业运行中的动态化调整，在更少人工干预的前提下完成。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-11 10:59:08

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

this xml file does not appear to have any style in

50263

10

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

130188

28

0

请问下我访问接口不通什么原因 Provisional headers are shown

2642

0

0

手机弹出支付风险问题

6793

2

0

购买阿里国外的云服务器是否可以访问谷歌？

81868

47

0

计算机网络的频带传输是什么意思？

1919

1

0

OSS的endpoint如何查看

36818

6

0

配置了安全组规则，端口还是无法访问

32747

25

0

sql server的用户名和密码怎么查啊？

36369

21

0

网站建设

1298

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

基于python大数据深度学习的酒店评论文本情感分析系统

别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明

基于python大数据技术的医疗数据分析与研究

基于Python大数据的的电商用户行为分析系统

2026版基于python大数据的电影分析可视化系统

热门讨论

热门文章

MaxCompute这样的情况应该怎么解决啊？

大数据计算MaxCompute的datawork做数据同步的时候，可以解决源系统表名不固定的情况嘛？

maxcompute计费系统貌似有点异常了，这个需要怎么处理呀？

dataworks中maxcompute函数是什么？

在使用maxcomputer studio的时候，project name具体是指什么？

sparksql中cte物化方式是怎样的

大数据计算MaxCompute新增列，表提交生产环境失败，提示列已存在，如何解决？

odps中如何解析json字符串？

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

文本摘要的目的是什么？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

优酷背后的大数据秘密

吴刚专访--大数据和 MaxCompute 技术和故事

Python+大数据计算平台，PyODPS架构手把手教你搭建

【转载】时隔一年多，我又用起了 Superset

干货：解码OneData，阿里的数仓之路。

品《阿里巴巴大数据实践-大数据之路》一书（上）

展开全部

还有其他疑问?