MaxCompute x 聚水潭：基于近实时数仓解决方案构建统一增全量一体化数据链路

2025-07-17 499

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 聚水潭作为中国领先的电商SaaS ERP服务商，致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战，聚水潭采用MaxCompute近实时数仓Delta Table方案，有效提升数据新鲜度和计算效率，提效比例超200%，资源消耗显著降低。未来，聚水潭将进一步优化数据链路，结合MaxQA实现实时分析，赋能商家快速响应市场变化。

一.客户介绍

聚水潭是中国领先的电商 SaaS ERP 服务商，通过全链路数字化解决方案（覆盖订单/仓储/供应链/财务）助力企业降本增效。其核心 ERP 产品为不同类型及规模的客户提供一套统一且直观的业务监控、运营及管理工具，赋能客户做出数据驱动的智能决策，使其能在快速发展的电商行业中脱颖而出。

服务客户基数大，截至2024年，已为 88,400 名不同类型的 SaaS 客户提供服务。
核心产品成熟度高，其云端电商 SaaS 产品，能够推动商家客户与中国乃至全球超过 400 个电商平台连接（根据灼识咨询的资料，行业平均连接的电商平台数量不足 200 个）。
技术基础设施稳定高效，在 2024 年“双11”期间成功处理了约 16 亿份订单，创下行业领先记录。

640 - 2025-07-17T161451.442.png

二.为什么选择 MaxCompute 近实时数仓解决方案

1.原有架构痛点

用户很多现有业务数据符合 PK 主键的场景，在相关表格的日常数据的增全量合并操作时，必须进行复杂的 PK 去重操作以维护数据一致性。随着用户业务的不断扩展，用户仓内核心业务数据量迅速增大，给客户带来如下明显痛点：

1. 日常维护复杂的增全量合并 ETL 链路。

2. 每日对全量数据进行扫描，计算成本随数据量提升不断增加。

3. 最新全量数据按天保存，冗余数据不断积累大大提升存储成本。

4. 增全量合并计算性能随数据量上升而下降，数据新鲜度变低，下游业务消费数据的压力不断增大。

2.MaxCompute 近实时数仓 Delta Table 解决方案优势

MaxCompute 在原有的离线批处理引擎基础上升级了系统架构，推出了近实时数仓解决方案。MaxCompute 的近实时数仓，基于全新的表格式实现了增全量数据一体化存储和管理，并且推出了丰富的增量计算能力，同时升级了 MaxCompute 短查询加速（MaxQA）以支持查询秒级返回。

MaxCompute 近实时数仓设计了多种新的表数据组织格式，既可支持 MaxCompute 普通表的所有功能，同时也能很好的支持增量处理链路的新场景。其中，PK Delta Table 作为增量表格式中支持数据包含主键场景的重要格式，完全契合聚水潭包含 PK 主键的业务场景，并能很好的解决用户原有业务的诸多痛点。

PK Delta Table 数据文件类型

PK Delta Table 支持多种数据文件组织格式，来高效支持全量读写和近实时增量读写等多种场景，主要包含 Checkpoint File，Delta File 和 CDC Log。

640 - 2025-07-17T161712.423.png

其中，每次上游事务 commit 的数据会写入 Delta File，来保存每行数据的中间历史状态，从而为用户提供增量数据的读取功能。Delta File 经过 Compact 合并操作后会生成 Checkpoint File，PK 值相同的记录只会保留一行，并按照列式压缩存储，用来支撑高效的全量数据查询需求。

Deletion Vector 功能提升 PK Delta Table 文件读写性能

MaxCompute 针对 PK Delta Table 的表格式最新推出了 Deletion Vector 功能，通过一种轻量化的紧凑的二级制格式，形成一个类似向量的结构（Bitmap），在增量数据不断更新过程中，高效管理已经被删除的数据，从而避免每次读写时候的全量数据进行 replay 扫描的耗时，来提升查询性能。当用户读写的 PK Delta Table 数据量较大（平均文件大小>10M）且 SQL 对表格多列进行读写时加速效果更为明显。

640 - 2025-07-17T161752.072.png

三.客户生产系统落地效果：提效比例超过200%

在深度参与商家业务优化的分析后，客户发现在聚水潭电商最核心的销售履约链路上，围绕订单、出库、售后的全流程数据，均存在如下符合 Delta Table 使用场景的明显特征：

1. 明确的业务 PK 主键

2. 基于业务主键的数据更新

3. 主表和明细表关联查询

4. 数据量大（PB级数据规模）

基于以上评估分析，最终用户选择对订单明细链路（表数据量最大，逻辑最复杂，依赖最多，计算存储成本消耗最大，且成上升趋势）作为 Delta Table 改造项目的首选目标进行尝试。

640 - 2025-07-17T161921.858.png

图1 - 销售履约订单明细链路增全量合并ETL链路

640 - 2025-07-17T162005.848.png

图2 - T时增量具体业务流程

伴随订单明细链路的改造完成，Delta Table 也完成了元数据更新，写入攒批，多表查询等诸多特性的优化，最终聚水潭履约链路的数据更新周期从近3个小时提升至30分钟左右，提效比例超过200%，配合业务上对于更长周期数据更新的诉求（如预售订单超180，售后维保超1年），聚水潭数据中台团队基于 Delta Table 架构快速验证了更长更新周期、全链路H时效的技术方案，整体方案从设计到落地优化不到2个月时间，大大简化了增量数据写入和消费的成本，计算资源消耗降低56%。同时，利用 MaxCompute 近实时数仓最新推出的 Deletion Vector 的性能优化功能，针对生产的23条相关核心 SQL 任务进行优化后，整体性能提升42%，且计算资源消耗在之前基础上进一步降低21%。

四.未来展望

聚水潭将部分核心业务从传统批式引擎迁移到近实时数仓链路的过程中，构建了统一的增全量一体化数据链路，大幅降低了日常处理新增数据的核心业务的复杂度和资源成本，同时利用最新的 Deletion Vector 能力使得增量数据写入和查询任务的性能得到明显提升。未来，用户将重点致力于进一步提升核心业务数据的新鲜度，确保下游能更及时获取最新业务状态。同时，结合 MaxQA 对秒级查询响应的支持，将为商家提供更敏捷的实时数据洞察与交互式分析体验，进一步赋能其快速决策。

MaxCompute x 聚水潭：基于近实时数仓解决方案构建统一增全量一体化数据链路

一.客户介绍

二.为什么选择 MaxCompute 近实时数仓解决方案

1.原有架构痛点

2.MaxCompute 近实时数仓 Delta Table 解决方案优势

三.客户生产系统落地效果：提效比例超过200%

四.未来展望

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书