在双十一值班的过程中,我们依然看到了大促场景下因为不同的数据分布特点,数据的倾斜/膨胀对于分布式作业整体的完成时间影响非常大。而这些问题在 DAG 2.0 完备的动态图调度和运行能力上,都能得到较好的解决,相关功能正在排期上线中。一个典型的例子是 dynamic partition insert 的场景,在某个高优先级作业的场景上,一张重要的业务表直接采用动态分区的方式导入数据导致表文件数过多,后续基线频繁访问该表读取数据导致 pangu master 持续被打爆,集群处于不可用状态。
采用 DAG 2.0 的 Adaptive Shuffle 功能之后,线下验证作业运行时间由 30+小时降低到小于 30 分钟,而产生的文件数相比于关闭 reshuffle 的方式降低了一个数量级,在保障业务数据及时产出的前提下,能极大缓解 pangu master 的压力。动态分区场景在弹内生产和公共云生产都有广阔的应用场景,随着 Adaptive Shuffle 的上线,dynamic insert 将是第一个解决的比较彻底的数据倾斜场景。
此外,DAG 2.0 也持续探索其他数据倾斜(data skew)的处理,例如 join skew 等,相信随着在 2.0 上更多优化功能的开发,我们的执行引擎能做到更动态,更智能化,包括数据倾斜问题在内的一众线上痛点问题,将可以得到更好的解决。今天最好的表现,是明天最低的要求。我们相信 2020 年的双十一,在面对更大的数据处理量时,计算平台的双十一保障能够更加的自动化,通过分布式作业运行中的动态化调整,在更少人工干预的前提下完成。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。