MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。

Shuffle优化利器|聚簇优化推荐

在MaxCompute每日EB级规模的计算场景中,Join、Group By、Window等算子所产生的Shuffle数据流量已占据整体网络传输的60%以上,成为影响大数据计算成本的核心因素。以阿里内部某业务为例,单日Shuffle数据量高达2 PB,直接消耗7000+ CU资源——这一数字仅是问题的冰山一角。

MaxCompute 哈希聚簇(Hash Clustering)表能通过设置表的Shuffle和Sort属性,可对数据进行重新组织与排列,从而在后续的数据处理链路中显著减少IO消耗,加速查询与计算任务的执行,进而提升整体作业效率并降低资源使用成本。

然而,在业务初期,很多表并未预先定义Hash Cluster。随着业务规模的不断扩大和数据消费链路的日益复杂,回溯进行数据治理将面临巨大的挑战,需要基于详尽的历史数据统计与分析才能做出科学的治理决策。

为帮助用户更高效地优化数据处理流程,MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。

实测成果|技术揭秘

聚簇优化推荐功能已在阿里内部得到广泛应用,并取得了显著的优化效果我们相信,随着更多业务采用这一推荐方案,将能够实现整体业务的大幅提速,释放数据处理的无限潜能。

image.png

那么,为什么聚簇优化推荐功能能够带来如此显著的成本节省?让我们为您揭秘这一功能的核心优势:

  • 全局 DAG 感知:该功能能够一次性分析横跨数千作业的 Shuffle 依赖图,帮助我们全面了解数据流动的全局性问题,从而精准定位优化方向。
  • 动态倾斜检测:提前识别热点 key,避免「优化后更慢」的情况发生,确保优化方案的稳定性和高效性。
  • 智能收益评估:通过智能算法,功能仅对「高 Shuffle + 低风险」的表提供改造建议,避免无效改造,确保优化建议的高效性和可靠性。
  • 一键脚本生成:自动输出 ALTER TABLE 语句,并提供回滚方案,极大简化了用户操作流程,让用户能够快速、安全地实施优化。

这一功能不仅能够显著降低 Shuffle 场景的成本,更能为您的业务带来更快的查询速度和更高的资源利用率。

image.png

image.png

快速使用聚簇优化推荐

聚簇优化推荐功能已在阿里云MaxCompute控制台上正式发布,您可轻松查看和使用,只需三步即可完成推荐方案的应用。通过智能化和自动化的分析,该功能能够帮助您快速完成优化治理,提升作业效率。

  1. 查看推荐列表并应用推荐。

image.png

通过预估收益查看待优化的推荐列表,通过这个推荐列表您可以明确了解什么项目的什么表,可以把哪个列作为ClusterKey、SortKey以及Bucket的设置量,并预估出采用改推荐方案后可节省的Shuffle量。

  • 选择查看想要优化的表点击“前往优化”进入查看更详细的优化方案。

image.png

可以查看详细预估可收益的相关周期作业列表,包括读表作业、全量写表作业、全量读表作业。

  • 点击“应用建议”生成对应的ALTER TABLE 语句 + 回滚方案 。点击“确认应用”直接将当前表完成Hash Cluster 转换。

image.png

  1. 查看聚簇优化收益。聚簇优化页签,选择实际收益,选择分析时间,可以查看修改过聚簇属性的聚簇表带来的收益汇总和收益详情。

image.png

  • 总的收益:受益作业数主要统计最近修改的聚簇表在收益统计区间内的被读取次数;节省的CU时是所有读取最近修改的聚簇表的作业在收益统计区间内的CU时消耗相较于表修改为聚簇表之前CU时消耗的节省值;节省Shuffle量消耗是所有读取最近修改的聚簇表的作业在收益统计区间内的Shuffle量消耗相较于表修改为聚簇表之前Shuffle量的节省值。
  • 已优化列表:查看已经优化过的table详细list,每个表修改时间、收益的作业数,节省的计算时长、CU时、Shuffle量。
  • 查看已优化表的优化效果详情。

image.png

更详细的使用说明请参考文档聚簇优化推荐>>

更多MaxCompute优化推荐

MaxCompute已经推出了一系列优化推荐能力,同时还持续不断的挖掘并总结各种场景的改进点,未来还会继续推出更多的优化利器:

  • 优化器:支持 CASE WHEN / COALESCE 场景自动合并 Cluster Key 。
  • 智能数仓:AutoMV计算配置优化推荐分层存储优化推荐。未来,结合 Z-Order、Data Skipping 做联合索引推荐 。
  • 实时推荐:作业运行结束即推送下一跳优化建议 。
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
数据采集 搜索推荐 算法
大数据信息SEO优化系统软件
大数据信息SEO优化系统软件(V1.0)是公司基于“驱动企业价值持续增长”战略,针对企业网站、电商平台及内容营销场景深度定制的智能化搜索引擎优化解决方案。该软件以“提升搜索排名、精准引流获客”为核心目标,通过整合全网数据采集、智能关键词挖掘、内容质量分析、外链健康度监测等功能模块,为企业构建从数据洞察到策略落地的全链路SEO优化体系,助力品牌高效提升搜索引擎曝光度,实现从流量获取到商业转化的价值升级。
64 2
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?
你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?
52 0
|
2月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
2月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
SQL 分布式计算 大数据
MaxCompute 聚簇优化推荐简介
在大数据计算中,Shuffle 是资源消耗最大的环节之一。MaxCompute 提供聚簇优化推荐功能,通过调整 Cluster 表结构,有效减少 Shuffle 量,显著提升作业性能并节省计算资源。实际案例显示,该功能可帮助用户每日节省数 PB 的 Shuffle 数据量及数千 CU 的计算成本。
64 0
|
3月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
72 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
161 3
|
2月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
3月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
90 1

相关产品

  • 云原生大数据计算服务 MaxCompute