MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。

一.客户介绍


聚水潭是中国领先的电商 SaaS ERP 服务商,通过全链路数字化解决方案(覆盖订单/仓储/供应链/财务)助力企业降本增效。其核心 ERP 产品为不同类型及规模的客户提供一套统一且直观的业务监控、运营及管理工具,赋能客户做出数据驱动的智能决策,使其能在快速发展的电商行业中脱颖而出。

  • 服务客户基数大,截至2024年,已为 88,400 名不同类型的 SaaS 客户提供服务。
  • 核心产品成熟度高,其云端电商 SaaS 产品,能够推动商家客户与中国乃至全球超过 400 个电商平台连接(根据灼识咨询的资料,行业平均连接的电商平台数量不足 200 个)。
  • 技术基础设施稳定高效,在 2024 年“双11”期间成功处理了约 16 亿份订单,创下行业领先记录。

640 - 2025-07-17T161451.442.png


二.为什么选择 MaxCompute 近实时数仓解决方案

1.原有架构痛点

用户很多现有业务数据符合 PK 主键的场景,在相关表格的日常数据的增全量合并操作时,必须进行复杂的 PK 去重操作以维护数据一致性。随着用户业务的不断扩展,用户仓内核心业务数据量迅速增大,给客户带来如下明显痛点:

1. 日常维护复杂的增全量合并 ETL 链路。


2. 每日对全量数据进行扫描,计算成本随数据量提升不断增加。


3. 最新全量数据按天保存,冗余数据不断积累大大提升存储成本。


4. 增全量合并计算性能随数据量上升而下降,数据新鲜度变低,下游业务消费数据的压力不断增大。


2.MaxCompute 近实时数仓 Delta Table 解决方案优势

MaxCompute 在原有的离线批处理引擎基础上升级了系统架构,推出了近实时数仓解决方案。MaxCompute 的近实时数仓,基于全新的表格式实现了增全量数据一体化存储和管理,并且推出了丰富的增量计算能力,同时升级了 MaxCompute 短查询加速(MaxQA)以支持查询秒级返回。

MaxCompute 近实时数仓设计了多种新的表数据组织格式,既可支持 MaxCompute 普通表的所有功能,同时也能很好的支持增量处理链路的新场景。其中,PK Delta Table 作为增量表格式中支持数据包含主键场景的重要格式,完全契合聚水潭包含 PK 主键的业务场景,并能很好的解决用户原有业务的诸多痛点。

  • PK Delta Table 数据文件类型

PK Delta Table 支持多种数据文件组织格式,来高效支持全量读写和近实时增量读写等多种场景,主要包含 Checkpoint File,Delta File 和 CDC Log。

640 - 2025-07-17T161712.423.png


其中,每次上游事务 commit 的数据会写入 Delta File,来保存每行数据的中间历史状态,从而为用户提供增量数据的读取功能。Delta File 经过 Compact 合并操作后会生成 Checkpoint File,PK 值相同的记录只会保留一行,并按照列式压缩存储,用来支撑高效的全量数据查询需求。

  • Deletion Vector 功能提升 PK Delta Table 文件读写性能

MaxCompute 针对 PK Delta Table 的表格式最新推出了 Deletion Vector 功能,通过一种轻量化的紧凑的二级制格式,形成一个类似向量的结构(Bitmap),在增量数据不断更新过程中,高效管理已经被删除的数据,从而避免每次读写时候的全量数据进行 replay 扫描的耗时,来提升查询性能。当用户读写的 PK Delta Table 数据量较大(平均文件大小>10M)且 SQL 对表格多列进行读写时加速效果更为明显。


640 - 2025-07-17T161752.072.png


三.客户生产系统落地效果:提效比例超过200%

在深度参与商家业务优化的分析后,客户发现在聚水潭电商最核心的销售履约链路上,围绕订单、出库、售后的全流程数据,均存在如下符合 Delta  Table 使用场景的明显特征:

1. 明确的业务 PK 主键


2. 基于业务主键的数据更新


3. 主表和明细表关联查询


4. 数据量大(PB级数据规模)

基于以上评估分析,最终用户选择对订单明细链路(表数据量最大,逻辑最复杂,依赖最多,计算存储成本消耗最大,且成上升趋势)作为 Delta Table 改造项目的首选目标进行尝试。

640 - 2025-07-17T161921.858.png

图1 - 销售履约订单明细链路增全量合并ETL链路


640 - 2025-07-17T162005.848.png

图2 - T时增量具体业务流程


伴随订单明细链路的改造完成,Delta Table 也完成了元数据更新,写入攒批,多表查询等诸多特性的优化,最终聚水潭履约链路的数据更新周期从近3个小时提升至30分钟左右,提效比例超过200%,配合业务上对于更长周期数据更新的诉求(如预售订单超180,售后维保超1年),聚水潭数据中台团队基于 Delta Table 架构快速验证了更长更新周期、全链路H时效的技术方案,整体方案从设计到落地优化不到2个月时间,大大简化了增量数据写入和消费的成本,计算资源消耗降低56%。同时,利用 MaxCompute 近实时数仓最新推出的 Deletion Vector 的性能优化功能,针对生产的23条相关核心 SQL 任务进行优化后,整体性能提升42%,且计算资源消耗在之前基础上进一步降低21%。


四.未来展望

聚水潭将部分核心业务从传统批式引擎迁移到近实时数仓链路的过程中,构建了统一的增全量一体化数据链路,大幅降低了日常处理新增数据的核心业务的复杂度和资源成本,同时利用最新的 Deletion Vector 能力使得增量数据写入和查询任务的性能得到明显提升。未来,用户将重点致力于进一步提升核心业务数据的新鲜度,确保下游能更及时获取最新业务状态。同时,结合 MaxQA 对秒级查询响应的支持,将为商家提供更敏捷的实时数据洞察与交互式分析体验,进一步赋能其快速决策。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
打赏
0
0
0
0
945
分享
相关文章
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
950 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
292 17
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
444 1
Flink CDC + Hologres高性能数据同步优化实践
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
139 4

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问