零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。

01滔搏:中国最大运动零售运营商的数字化挑战

1.1 企业规模与影响力

图1 滔搏企业规模与影响力

滔搏作为中国颇具规模的运动零售运营商,于 2019 年在香港主板上市,2024/2025 财年实现年营业收入 270.1 亿元,净利润达 12.8 亿元。

滔搏拥有数千家直营店铺,与20余个领先运动品牌建立了深度合作关系,特别是作为耐克和阿迪达斯在国内最大的零售运营合作伙伴,其在中国运动零售市场的地位举足轻重。这样的规模和影响力使得滔搏在数字化转型过程中的经验和实践具有重要的行业示范意义。

1.2 全域经营生态战略

滔搏前瞻性地建立了"实体门店+平台电商+内容电商+私域运营"的全域经营生态,这种多元化的业务模式在带来巨大商业价值的同时,也对底层技术架构提出了更高的要求。

多渠道业务产生的海量异构数据使得数据复杂度提升。同时,库存、价格、促销等关键业务需要实时响应,对系统的实时性要求变得极为严苛。此外,ERP、POS、WMS、电商平台等多系统之间的数据融合也带来了前所未有的系统集成挑战。

1.3 数字化转型的战略意义

图2 滔搏全域数字化

向全域数字化转型的过程中,滔搏面临的不仅是技术选择问题,更是关乎企业未来竞争力的战略抉择。在这个过程中,数据处理能力成为了核心竞争力的重要组成部分。

1.4 传统架构面临的三大核心挑战

  • 挑战一:IDC 及大数据软件栈维护成较高

在当前快速迭代的开源软件生态下,公司数据处理能力正面临 IDC 升级与多软件栈兼容性优化的关键节点。为更好地支持业务创新与效率提升,滔搏在新特性适配与技术能力建设方面尚有提升空间,需进一步增强功能完备性与性能表现。此外,借助活跃开源社区的力量持续强化安全漏洞的及时修复能力,也成为滔搏下一步的重点工作。与此同时,如何设计更平稳、低风险的跨版本升级路径,以保障业务连续性与系统稳定性,也是滔搏正在积极优化的重要方向。

  • 挑战二:保障业务稳定,快速响应高峰分析需求

为应对业务流量波动,滔搏致力于提升资源弹性,构建更灵活的调度机制,以平衡资源利用率与成本效益。另一方面,为敏捷响应业务快速增长,滔搏正加速推进架构升级,增强可扩展性、缩短扩容周期,从而更好地支撑业务爆发式增长与市场机遇的快速捕捉。

  • 挑战三:实时数据处理能力存在提升空间

当前的数据集成与处理流程在实时性方面仍有优化空间,例如通过引入流式处理与更高效的数据同步机制,可显著提升库存、价格等关键业务数据的更新频率,从而更快地响应前端业务变化,赋能实时决策与运营。


02湖仓1.0到2.0:技术演进的必然选择

2.1 湖仓架构 1.0:采用 Lambda 架构模式

滔搏构建的湖仓架构 1.0 实现了核心功能的上线及稳定运行:

架构特点

图3 湖仓架构 1.0

湖仓 1.0 采用了经典的 Lambda 架构模式,整个数据处理流程分为五个核心环节。首先是数据源层,包括数据库系统、外部数据接口以及手工上传的各类数据。然后通过数据采集环节,使用实时和离线两套采集工具体系来获取数据。采集完成的数据进入数据存储层,主要基于 Hadoop 集群架构,同时配合 Elasticsearch、MongoDB 等 NoSQL 数据库以及高速缓存系统。在数据处理环节,采用双引擎架构:Impala 负责离线批处理加工,Flink 承担实时流处理任务。最终在数据服务层,通过报表分析系统、Web 接口以及数据推送服务为业务提供支持。

待提升的技术环节

技术类型

提升方向

运维层面

在自建 IDC 机房中搭建 hadoop 集群

系统效率

及稳定性

随着数据量与计算任务的持续增长,Kudu、Impala 等组件在应对高并发与大规模数据处理场景时,其在性能与稳定性方面仍存在进一步提升的空间,需通过架构优化与技术升级增强其扩展性与可靠性,以更好地匹配企业日益增长的数据处理需求。

技术创新性

Kudu、Impala、Hudi 等技术在应对当前快速演进的数据架构需求时,其社区生态与技术支持能力面临一定挑战。为更好地满足企业级大规模数据处理需求,公司需积极探索并引入更具活力、响应更敏捷的新一代数据技术方案,以提升系统整体可维护性与未来扩展性。

2.2 湖仓架构2.0:采用“流批一体”的统一架构

面对 1.0 版本的种种问题,滔搏开始规划湖仓架构 2.0,这次升级的核心理念是"化繁为简"和"流批一体"。

架构选型原则

滔搏在进行 2.0 架构选型时,制定了清晰的技术选择标准:

  • 技术先进性要求:技术必须由国人引领,确保技术深度和社区热度双重在线,因此,滔搏最终选择了 Apache Flink + Paimon 组合方案。
  • 性能优异要求:采用 LSM+主键表设计,确保读写性能优异,同时提供流读流写功能的深度支持,Paimon 核心架构能高度满足这一需求。
  • 生态完善要求:架构的搭建必须应用业界普遍适用的技术方案,支持 Schema 进化、时间旅行、回滚等企业级特性,确保完整的开源生态支撑。
  • 面向未来要求:能够统一管理结构化与非结构化数据,面向AI模型训练的多模态数据存储需求,提供技术前瞻性保障。

统一架构的核心优势

新的湖仓架构 2.0 实现了多个层面的统一。在计算层面,一套架构全面支持流、批、OLAP 所有计算需求。在存储层面,通过湖仓数据一体化存储消除了数据孤岛,实现了真正的统一存储。同时,DLF 统一元数据管理实现了元数据标准化,SQL 统一数据处理提供了一致的开发接口,而 OSS 统一存储则确保了底层存储的标准化。

2.3 Flink+Paimon 架构选型与性能验证

技术选型的深度思考

在确定采用 Flink+Paimon 架构之前,滔搏进行了严格的性能测试和技术验证。这个过程不仅是技术选型,更是对未来业务发展的前瞻性判断。

Paimon 的核心设计理念

Paimon 作为新一代湖存储引擎,其设计理念与滔搏的业务需求高度吻合:

设计理念

技术实现

业务价值

湖存储 + LSM结构

满足高性能的更新写入以及 Changelog 生成

支持零售业务的频繁数据更新需求

离线数据近实时化

以低成本的方式解决全链路数据流计算

降低实时数据处理成本

与 Flink 高效集成

对接 Flink CDC,支持完整的 Flink SQL 语法

简化开发复杂度,提升开发效率

开放的生态体系

支持主流计算引擎 Spark、Presto/Trino、StarRocks/Doris

保障技术生态的开放性和可扩展性

性能测试验证结果

滔搏进行了详细的性能对比测试,验证了 Paimon 相对于其他湖存储技术的显著优势:

图4 基于 Flink+Paimon 架构选型和性能测试

大规模数据入湖性能对比

  • 5亿条数据入湖 MOR (Merge-On-Read) 模式

在大规模数据入湖的 MOR 模式测试中,Paimon 表现出了显著的性能优势。以 Paimon 作为基准性能参照,Hudi MOR 模式的表现明显落后,整体性能比 Paimon 慢了4.2倍。性能差异的根本原因在于两种技术的设计理念不同。Hudi MOR 的 Compaction 完全异步运行,导致太多数据没有得到及时合并,使得读取性能极差。相比之下,Paimon 在设计上默认会在写入和读取性能之间取得平衡,当 Compaction 过程太慢时会等待其完成,从而保证了整体性能的稳定性。

  • 1亿条数据入湖 COW (Copy-On-Write) 模式

在 COW 模式的性能测试中,Paimon 的优势更加明显。同样以 Paimon 作为基准性能,Hudi COW 模式性能明显落后,整体表现比 Paimon 慢了14倍,这个差距体现了两种技术在 COW 模式实现上的根本性差异。

多维度性能优势

除了基础的写入性能,Paimon 在多个维度都表现出显著优势。在宽表合并能力方面,相比传统方案有4倍性能提升。在生态兼容性上,其强大的生态支持能力比传统方案强2倍。最为突出的是在变更日志流读方面,CDC 入湖性能提升达到了惊人的12倍。

2.4 架构 2.0 的整体效果

基于阿里云实时计算 Flink 版+Paimon 的湖仓架构 2.0 实施后,取得了显著的效果。新架构构建了完整的数据处理流水线:数据从各类数据源统一接入后,通过 Flink 引擎进行实时和离线的流批一体化处理,处理后的数据统一存储在 Paimon 湖存储中,再通过多种查询引擎提供灵活的数据查询能力,最终为各类业务应用提供实时响应服务。整个架构实现了从数据接入到业务应用的端到端一体化处理。

图5 湖仓架构2.0

整体提效明显:数仓 2.0 提效明显,运营效率显著提升,云上主流程耗时显著降低。


03实时湖仓架构的业务价值突破

3.1 零售敏捷力的双引擎:实时与准实时

滔搏的实时湖仓架构在业务层面实现了"实时·准实时"的双引擎驱动,为零售业务的敏捷性提供了强有力的技术支撑。

图6 “实时·准实时”双引擎驱动

3.2 精准定价与促销管理

在智能定价系统方面,滔搏通过实时追踪需求波动、竞品动态与季节趋势,能够基于实时数据动态优化定价策略,确保每次定价调整都有数据支撑,让利润持续增长。

在智能促销管理方面,系统能够实时评估活动表现并敏捷调整方案,确保每次营销都精准发力,效果最大化。这种智能促销模式使得营销效果能够立竿见影地显现出来。

3.3 实时销售跟进分析

通过实时湖仓架构,滔搏实现了门店表现的实时监控和智能预警,能够实现业绩风险的早发现早应对。基于实时数据进行销售策略调整,使得整个销售管理体系更加敏捷和高效。

3.4 实时调货补货系统

在智能库存管理方面,滔搏通过实时追踪各店库存状况,能够预判爆款需求,确保不断货、最大程度捕捉商机。同时,基于销售动态优化生产与配送,有效减少库存积压,加速资金流动,提升资金效率。

在数据驱动的供应链优化方面,通过数据驱动实现了周转提速,整体盈利效率得到显著提升。

3.5 实现线上线下库存共享

在全渠道库存统一方面,滔搏实现了线上线下渠道的无缝衔接,支持线上下单、就近发货,为顾客打造了流畅的购物体验。同时,滔搏通过技术系统整合消费全链路数据,深度挖掘用户行为,为业务决策提供了有力支撑。

在精准运营策略方面,滔搏持续构建更加智能的全域营销体系,通过打通线上线下实时互动链路,以数据驱动购物体验的持续优化。同时,滔搏通过实时捕捉并响应顾客反馈与市场动态,以不断提升运营响应速度与整体运营效能。

3.6 实时会员标签与个性化服务

在精准会员经营方面,滔搏通过动态追踪消费轨迹,能够准确识别核心客群,为核心客户量身定制专属礼遇,有效提升品牌忠诚度。

在个性化推荐与营销方面,系统基于实时行为数据,为每位顾客打造专属商品推荐,从而提升成交率;同时系统也会根据客群特征实时调整促销策略,通过个性化优惠券直击消费需求,实现精准投放。

3.7 业务价值量化指标

通过实时湖仓架构的实施,滔搏在多个业务维度取得了显著成效:

业务维度

改善效果

具体表现

开发效率

显著提升

代码流批复用

运维成本

显著降低

团队效率提升

数据一致性

统一保障

实现流批一致

整体任务效率

显著提升

通过技术手段和算法优化

业务满意度

显著提升

支撑多个复杂业务场景



04挑战与收益:从技术约束到开源贡献

4.1 业务复杂性带来的技术挑战

滔搏在实施实时湖仓架构过程中,面临的不仅是技术选型问题,更是业务复杂性与技术实现的深度融合挑战。

图7 业务复杂vs价值创新

4.2 多系统集成挑战

在系统复杂度方面,滔搏需要面对 ERP、WMS、POS 等多个系统的实时数据融合挑战。通过统一实时接入技术,把数据源的数据都实时接入数仓,实现了秒级延迟的数据处理,后续的消费也能实时联动。

在业务需求驱动方面,全域零售+实时零售的模式要求更快的库存响应和全渠道库存动态调补。同时,促销规则的实时计算和校验,订单渠道归属,佣金的计算都有非常复杂的规则和计算逻辑需要处理。

4.3 从复杂架构到统一架构的转型挑战

  • 传统架构的复杂性

挑战类型

具体表现

业务影响

多引擎并存

Hive、Kudu、Impala 等引擎多重维护

维护成本高,技术栈复杂

数据一致性挑战

存在发生流批不一致情况的可能

影响业务决策的准确性

运维复杂度高

故障排查成本高

系统稳定性存在提升空间

  • 统一架构的收益

收益维度

具体效果

价值体现

流批一体价值

一套代码流批复用

开发效率显著提升

数据一致性保障

统一计算引擎消除一致性问题

业务决策更加准确

运维成本降低

运维成本显著降低

团队效率提升,专注业务创新

4.4 人才约束与开源贡献的双重突破

图8 人才约束 VS 开源贡献

人才约束的现实困境

作为传统零售企业,滔搏在技术人才方面面临的挑战具有典型性。在学习曲线方面,从 Hadoop 生态转型意味着面临知识体系的重构,需要通过解决实际问题来深度理解内核机制。在人才密度方面,相比互联网公司,零售企业技术团队"摸着石头过河"的探索成本相对较高。

开源贡献的价值创新:从使用者到贡献者的转变

滔搏选择了一条创新的道路——积极参与开源贡献:

  • 技术贡献层面:主动向 Paimon 项目贡献源码,通过实际的技术输出提升企业在开源社区的技术影响力和话语权。
  • 人才吸引层面:优质的技术人才更愿意加入有开源贡献实力的企业,滔搏通过提升在技术方面的实力和影响力,推动更多技术人才加入公司,显著提升了公司对技术人才的吸引力。
  • 价值放大层面:每一次开源贡献都是技术价值的倍数放大,不仅解决自身问题,更推动整个开源生态的共建共享。

4.5 技术跃迁哲学

滔搏在数字化建设过程中实现了自身技术的跃迁与开源价值共创,这不仅是滔搏的实践总结,更是传统企业数字化转型的重要启示。

三个关键理念

  • 实践催生创新是滔搏实践中的重要发现。深度思考与反复实践促进了技术的跃迁,每个挑战都成为了团队成长的催化剂。
  • 开源共建共享的理念贯穿了整个转型过程。在获得社区支持的同时,滔搏积极回馈技术生态,每次贡献都是技术价值的放大。
  • 价值双向流动体现了滔搏从"使用者"到"贡献者"的角色转变,证明了传统企业也能在技术前沿有所作为。


05总结:零售数字化转型的技术启示

滔搏从 Lambda 架构到阿里云实时计算 Flink 版+Paimon 统一架构的转型实践,为整个零售行业的数字化转型提供了宝贵的经验和启示。滔搏的技术选型体现了三个重要原则:不仅要解决当前问题,更要面向未来业务发展;技术先进性与社区生态活跃度同样重要;性能验证必须基于真实业务场景进行。这种前瞻性的思考方式确保了技术投资的长期价值。在架构演进过程中,滔搏采用了系统性的方法论:从复杂到简单的统一化思路帮助消除了技术栈的冗余;流批一体的架构理念实现了计算统一;数据湖仓一体化的存储策略解决了数据孤岛问题。

滔搏的实践证明了三个重要观点:技术升级必须转化为业务价值才有意义;实时性能力是零售竞争力的重要组成部分;数据驱动决策已经成为企业的核心能力。这种业务价值导向的技术实践为其他企业提供了重要参考。滔搏的实践不仅是单个企业的技术升级,更代表了传统零售企业数字化转型的一种范式,体现了技术民主化的重要趋势。开源生态有效降低了技术门槛,企业可以实现从技术消费者到技术贡献者的角色转变,这种趋势为更多传统企业的数字化转型提供了可能。

滔搏的实践展现了业务与技术深度融合的价值。技术选型必须服务于业务战略,实时数据处理成为业务敏捷性的基础,数据一致性是业务决策准确性的保障。这种深度融合模式为传统企业的技术架构升级提供了重要指导。滔搏的开源实践揭示了协作价值的多重维度:企业参与开源不仅是获取技术,更是价值共创的过程;技术贡献已经成为人才吸引和品牌建设的重要途径;开源生态为传统企业提供了技术跃迁的难得机会。

展望未来,滔搏将持续推动技术架构的演进,在开源生态中发挥越来越重要的作用。


来源  |  Apache Flink公众号

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
1月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
323 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
1月前
|
数据采集 监控 API
移动端性能监控探索:iOS RUM SDK 技术架构与实践
阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。
202 14
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
221 2
|
2月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
2月前
|
数据采集 存储 运维
MyEMS:技术架构深度剖析与用户实践支持体系
MyEMS 是一款开源能源管理系统,采用分层架构设计,涵盖数据采集、传输、处理与应用全流程,支持多协议设备接入与多样化能源场景。系统具备高扩展性与易用性,结合完善的文档、社区、培训与定制服务,助力不同技术背景用户高效实现能源数字化管理,降低使用门槛与运维成本,广泛适用于工业、商业及公共机构等场景。
127 0
|
1月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
2月前
|
存储 分布式计算 数据库
数据湖技术选型指南:Iceberg vs Delta Lake vs Paimon
对比当前最主流的三种开源湖格式:Iceberg、Delta Lake 和 Paimon,深入分析它们的差异,帮助大家更好地进行技术选型。
667 4
|
2月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
2月前
|
前端开发 Java 开发者
MVC 架构模式技术详解与实践
本文档旨在全面解析软件工程中经典且至关重要的 MVC(Model-View-Controller) 架构模式。内容将深入探讨 MVC 的核心思想、三大组件的职责与交互关系、其优势与劣势,并重点分析其在现代 Web 开发中的具体实现,特别是以 Spring MVC 框架为例,详解其请求处理流程、核心组件及基本开发实践。通过本文档,读者将能够深刻理解 MVC 的设计哲学,并掌握基于该模式进行 Web 应用开发的能力。
444 1
|
3月前
|
存储 自然语言处理 前端开发
百亿级知识库解决方案:从零带你构建高并发RAG架构(附实践代码)
本文详解构建高效RAG系统的关键技术,涵盖基础架构、高级查询转换、智能路由、索引优化、噪声控制与端到端评估,助你打造稳定、精准的检索增强生成系统。
710 2

热门文章

最新文章

下一篇
oss云网关配置