备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DAG 2.0 展望在哪些方面有所突破？

已解决

DAG 2.0 展望在哪些方面有所突破？

展开

收起

游客lmkkns5ck6auu 2022-08-10 14:31:28 360 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

在双十一值班的过程中，我们依然看到了大促场景下因为不同的数据分布特点，数据的倾斜/膨胀对于分布式作业整体的完成时间影响非常大。而这些问题在 DAG 2.0 完备的动态图调度和运行能力上，都能得到较好的解决，相关功能正在排期上线中。一个典型的例子是 dynamic partition insert 的场景，在某个高优先级作业的场景上，一张重要的业务表直接采用动态分区的方式导入数据导致表文件数过多，后续基线频繁访问该表读取数据导致 pangu master 持续被打爆，集群处于不可用状态。

采用 DAG 2.0 的 Adaptive Shuffle 功能之后，线下验证作业运行时间由 30+小时降低到小于 30 分钟，而产生的文件数相比于关闭 reshuffle 的方式降低了一个数量级，在保障业务数据及时产出的前提下，能极大缓解 pangu master 的压力。动态分区场景在弹内生产和公共云生产都有广阔的应用场景，随着 Adaptive Shuffle 的上线，dynamic insert 将是第一个解决的比较彻底的数据倾斜场景。

此外，DAG 2.0 也持续探索其他数据倾斜（data skew）的处理，例如 join skew 等，相信随着在 2.0 上更多优化功能的开发，我们的执行引擎能做到更动态，更智能化，包括数据倾斜问题在内的一众线上痛点问题，将可以得到更好的解决。今天最好的表现，是明天最低的要求。我们相信 2020 年的双十一，在面对更大的数据处理量时，计算平台的双十一保障能够更加的自动化，通过分布式作业运行中的动态化调整，在更少人工干预的前提下完成。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-11 10:59:08

赞同展开评论打赏

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

CCO的实时架构演进分为哪三个阶段？

372

1

0

DAG 2.0 除了在作业规模等方面继续在业界保持领先之外，架构和功能上有哪些创新？

371

1

0

DAG 2.0 具有哪些关键技术？

465

1

0

伏羲 2.0 成果有哪些？

311

1

0

大数据处理过程中领域科学问题一，问题二，问题三，问题四分别是什么？

419

1

0

技术策略之外如何将成熟的学术算法落地到工程业务场景？

447

1

0

DAG 2.0 除了在作业规模等方面继续在业界保持领先之外，架构和功能上还有什么创新？

396

1

0

算法框架设计和演进对于算法能力重要性包括哪些？

311

1

0

伏羲 DAG/AM 组件从宏观架构上来看分为哪几种？

314

1

0

大数据架构演进之路指的是什么？

352

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

大数据知识图谱包括哪些内容？

大数据计算MaxCompute钉钉机器人发报警webhook调用量到上限了，这个怎么处理？

大数据计算MaxCompute如果一个字段超过8mb，mc有办法存储吗？

MaxCompute中执行SQL报错ODPS-0130071

MaxCompute整个空间查询都查不了，这是什么原因？

请问大数据计算MaxCompute有主键这种说法么?

maxcomputer 和 dataworks 有什么区别？

解析并获取大json，是否更推荐json_tuple()？

大数据计算MaxCompute中如果说我这边的程序接收到用户上传文件的请求，应该调用哪个API接口？

MaxCompute单元测试没有问题，通过本地运行却显示字段不存在，但是这个字段我是有的，有碰到吗？

展开全部

阿里云开源离线同步工具DataX3.0介绍

每个人都应该知道的25个大数据术语

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

空格App亿元A轮融资背后：云上多场景技术架构实践与经验

使用 odps-jdbc 接入 ODPS，不再从零开始

品《阿里巴巴大数据实践-大数据之路》一书（上）

大数据阿里云产品的简单介绍理解

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

阿里云机器学习平台的思考

展开全部

相关课程

更多

Serverless 架构在软件研发工程实践方面的价值

84

1

去学习

建立 Serverless 思维

4910

4

去学习

大数据Spark2020版（知识精讲与实战演练）第四阶段

165

20

去学习

联邦学习长期教学赛

163

1

去学习

产品化思维

3152

1

去学习

云数据库优化十大典型案例

6039

12

去学习

相关电子书

更多

大规模分布式机器学习系统设计和应用经验分享 立即下载

大规模分布式机器学习-系统设计与应用经验分享 立即下载

阿里云千万级架构的构建--架构的成长演变之路 立即下载

相关实验场景

更多