MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路

简介: 聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。

一.客户介绍


聚水潭是中国领先的电商 SaaS ERP 服务商,通过全链路数字化解决方案(覆盖订单/仓储/供应链/财务)助力企业降本增效。其核心 ERP 产品为不同类型及规模的客户提供一套统一且直观的业务监控、运营及管理工具,赋能客户做出数据驱动的智能决策,使其能在快速发展的电商行业中脱颖而出。

  • 服务客户基数大,截至2024年,已为 88,400 名不同类型的 SaaS 客户提供服务。
  • 核心产品成熟度高,其云端电商 SaaS 产品,能够推动商家客户与中国乃至全球超过 400 个电商平台连接(根据灼识咨询的资料,行业平均连接的电商平台数量不足 200 个)。
  • 技术基础设施稳定高效,在 2024 年“双11”期间成功处理了约 16 亿份订单,创下行业领先记录。

640 - 2025-07-17T161451.442.png


二.为什么选择 MaxCompute 近实时数仓解决方案

1.原有架构痛点

用户很多现有业务数据符合 PK 主键的场景,在相关表格的日常数据的增全量合并操作时,必须进行复杂的 PK 去重操作以维护数据一致性。随着用户业务的不断扩展,用户仓内核心业务数据量迅速增大,给客户带来如下明显痛点:

1. 日常维护复杂的增全量合并 ETL 链路。


2. 每日对全量数据进行扫描,计算成本随数据量提升不断增加。


3. 最新全量数据按天保存,冗余数据不断积累大大提升存储成本。


4. 增全量合并计算性能随数据量上升而下降,数据新鲜度变低,下游业务消费数据的压力不断增大。


2.MaxCompute 近实时数仓 Delta Table 解决方案优势

MaxCompute 在原有的离线批处理引擎基础上升级了系统架构,推出了近实时数仓解决方案。MaxCompute 的近实时数仓,基于全新的表格式实现了增全量数据一体化存储和管理,并且推出了丰富的增量计算能力,同时升级了 MaxCompute 短查询加速(MaxQA)以支持查询秒级返回。

MaxCompute 近实时数仓设计了多种新的表数据组织格式,既可支持 MaxCompute 普通表的所有功能,同时也能很好的支持增量处理链路的新场景。其中,PK Delta Table 作为增量表格式中支持数据包含主键场景的重要格式,完全契合聚水潭包含 PK 主键的业务场景,并能很好的解决用户原有业务的诸多痛点。

  • PK Delta Table 数据文件类型

PK Delta Table 支持多种数据文件组织格式,来高效支持全量读写和近实时增量读写等多种场景,主要包含 Checkpoint File,Delta File 和 CDC Log。

640 - 2025-07-17T161712.423.png


其中,每次上游事务 commit 的数据会写入 Delta File,来保存每行数据的中间历史状态,从而为用户提供增量数据的读取功能。Delta File 经过 Compact 合并操作后会生成 Checkpoint File,PK 值相同的记录只会保留一行,并按照列式压缩存储,用来支撑高效的全量数据查询需求。

  • Deletion Vector 功能提升 PK Delta Table 文件读写性能

MaxCompute 针对 PK Delta Table 的表格式最新推出了 Deletion Vector 功能,通过一种轻量化的紧凑的二级制格式,形成一个类似向量的结构(Bitmap),在增量数据不断更新过程中,高效管理已经被删除的数据,从而避免每次读写时候的全量数据进行 replay 扫描的耗时,来提升查询性能。当用户读写的 PK Delta Table 数据量较大(平均文件大小>10M)且 SQL 对表格多列进行读写时加速效果更为明显。


640 - 2025-07-17T161752.072.png


三.客户生产系统落地效果:提效比例超过200%

在深度参与商家业务优化的分析后,客户发现在聚水潭电商最核心的销售履约链路上,围绕订单、出库、售后的全流程数据,均存在如下符合 Delta  Table 使用场景的明显特征:

1. 明确的业务 PK 主键


2. 基于业务主键的数据更新


3. 主表和明细表关联查询


4. 数据量大(PB级数据规模)

基于以上评估分析,最终用户选择对订单明细链路(表数据量最大,逻辑最复杂,依赖最多,计算存储成本消耗最大,且成上升趋势)作为 Delta Table 改造项目的首选目标进行尝试。

640 - 2025-07-17T161921.858.png

图1 - 销售履约订单明细链路增全量合并ETL链路


640 - 2025-07-17T162005.848.png

图2 - T时增量具体业务流程


伴随订单明细链路的改造完成,Delta Table 也完成了元数据更新,写入攒批,多表查询等诸多特性的优化,最终聚水潭履约链路的数据更新周期从近3个小时提升至30分钟左右,提效比例超过200%,配合业务上对于更长周期数据更新的诉求(如预售订单超180,售后维保超1年),聚水潭数据中台团队基于 Delta Table 架构快速验证了更长更新周期、全链路H时效的技术方案,整体方案从设计到落地优化不到2个月时间,大大简化了增量数据写入和消费的成本,计算资源消耗降低56%。同时,利用 MaxCompute 近实时数仓最新推出的 Deletion Vector 的性能优化功能,针对生产的23条相关核心 SQL 任务进行优化后,整体性能提升42%,且计算资源消耗在之前基础上进一步降低21%。


四.未来展望

聚水潭将部分核心业务从传统批式引擎迁移到近实时数仓链路的过程中,构建了统一的增全量一体化数据链路,大幅降低了日常处理新增数据的核心业务的复杂度和资源成本,同时利用最新的 Deletion Vector 能力使得增量数据写入和查询任务的性能得到明显提升。未来,用户将重点致力于进一步提升核心业务数据的新鲜度,确保下游能更及时获取最新业务状态。同时,结合 MaxQA 对秒级查询响应的支持,将为商家提供更敏捷的实时数据洞察与交互式分析体验,进一步赋能其快速决策。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
5月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
6月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
894 0
|
8月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
4月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
579 1
Flink基于Paimon的实时湖仓解决方案的演进
|
6月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
6月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
3月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute