MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。

Shuffle优化利器|聚簇优化推荐

在MaxCompute每日EB级规模的计算场景中,Join、Group By、Window等算子所产生的Shuffle数据流量已占据整体网络传输的60%以上,成为影响大数据计算成本的核心因素。以阿里内部某业务为例,单日Shuffle数据量高达2 PB,直接消耗7000+ CU资源——这一数字仅是问题的冰山一角。

MaxCompute 哈希聚簇(Hash Clustering)表能通过设置表的Shuffle和Sort属性,可对数据进行重新组织与排列,从而在后续的数据处理链路中显著减少IO消耗,加速查询与计算任务的执行,进而提升整体作业效率并降低资源使用成本。

然而,在业务初期,很多表并未预先定义Hash Cluster。随着业务规模的不断扩大和数据消费链路的日益复杂,回溯进行数据治理将面临巨大的挑战,需要基于详尽的历史数据统计与分析才能做出科学的治理决策。

为帮助用户更高效地优化数据处理流程,MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。

实测成果|技术揭秘

聚簇优化推荐功能已在阿里内部得到广泛应用,并取得了显著的优化效果我们相信,随着更多业务采用这一推荐方案,将能够实现整体业务的大幅提速,释放数据处理的无限潜能。

image.png

那么,为什么聚簇优化推荐功能能够带来如此显著的成本节省?让我们为您揭秘这一功能的核心优势:

  • 全局 DAG 感知:该功能能够一次性分析横跨数千作业的 Shuffle 依赖图,帮助我们全面了解数据流动的全局性问题,从而精准定位优化方向。
  • 动态倾斜检测:提前识别热点 key,避免「优化后更慢」的情况发生,确保优化方案的稳定性和高效性。
  • 智能收益评估:通过智能算法,功能仅对「高 Shuffle + 低风险」的表提供改造建议,避免无效改造,确保优化建议的高效性和可靠性。
  • 一键脚本生成:自动输出 ALTER TABLE 语句,并提供回滚方案,极大简化了用户操作流程,让用户能够快速、安全地实施优化。

这一功能不仅能够显著降低 Shuffle 场景的成本,更能为您的业务带来更快的查询速度和更高的资源利用率。

image.png

image.png

快速使用聚簇优化推荐

聚簇优化推荐功能已在阿里云MaxCompute控制台上正式发布,您可轻松查看和使用,只需三步即可完成推荐方案的应用。通过智能化和自动化的分析,该功能能够帮助您快速完成优化治理,提升作业效率。

  1. 查看推荐列表并应用推荐。

image.png

通过预估收益查看待优化的推荐列表,通过这个推荐列表您可以明确了解什么项目的什么表,可以把哪个列作为ClusterKey、SortKey以及Bucket的设置量,并预估出采用改推荐方案后可节省的Shuffle量。

  • 选择查看想要优化的表点击“前往优化”进入查看更详细的优化方案。

image.png

可以查看详细预估可收益的相关周期作业列表,包括读表作业、全量写表作业、全量读表作业。

  • 点击“应用建议”生成对应的ALTER TABLE 语句 + 回滚方案 。点击“确认应用”直接将当前表完成Hash Cluster 转换。

image.png

  1. 查看聚簇优化收益。聚簇优化页签,选择实际收益,选择分析时间,可以查看修改过聚簇属性的聚簇表带来的收益汇总和收益详情。

image.png

  • 总的收益:受益作业数主要统计最近修改的聚簇表在收益统计区间内的被读取次数;节省的CU时是所有读取最近修改的聚簇表的作业在收益统计区间内的CU时消耗相较于表修改为聚簇表之前CU时消耗的节省值;节省Shuffle量消耗是所有读取最近修改的聚簇表的作业在收益统计区间内的Shuffle量消耗相较于表修改为聚簇表之前Shuffle量的节省值。
  • 已优化列表:查看已经优化过的table详细list,每个表修改时间、收益的作业数,节省的计算时长、CU时、Shuffle量。
  • 查看已优化表的优化效果详情。

image.png

更详细的使用说明请参考文档聚簇优化推荐>>

更多MaxCompute优化推荐

MaxCompute已经推出了一系列优化推荐能力,同时还持续不断的挖掘并总结各种场景的改进点,未来还会继续推出更多的优化利器:

  • 优化器:支持 CASE WHEN / COALESCE 场景自动合并 Cluster Key 。
  • 智能数仓:AutoMV计算配置优化推荐分层存储优化推荐。未来,结合 Z-Order、Data Skipping 做联合索引推荐 。
  • 实时推荐:作业运行结束即推送下一跳优化建议 。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
1月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
11天前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
87 4
MaxCompute 聚簇优化推荐原理
|
10天前
|
存储 并行计算 算法
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
|
20天前
|
大数据 数据挖掘 定位技术
买房不是拍脑袋:大数据教你优化房地产投资策略
买房不是拍脑袋:大数据教你优化房地产投资策略
73 2
|
1月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
1月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
1月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
71 0
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
89 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
192 3
|
2月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute