01滔搏:中国最大运动零售运营商的数字化挑战
1.1 企业规模与影响力
图1 滔搏企业规模与影响力
滔搏作为中国颇具规模的运动零售运营商,于 2019 年在香港主板上市,2024/2025 财年实现年营业收入 270.1 亿元,净利润达 12.8 亿元。
滔搏拥有数千家直营店铺,与20余个领先运动品牌建立了深度合作关系,特别是作为耐克和阿迪达斯在国内最大的零售运营合作伙伴,其在中国运动零售市场的地位举足轻重。这样的规模和影响力使得滔搏在数字化转型过程中的经验和实践具有重要的行业示范意义。
1.2 全域经营生态战略
滔搏前瞻性地建立了"实体门店+平台电商+内容电商+私域运营"的全域经营生态,这种多元化的业务模式在带来巨大商业价值的同时,也对底层技术架构提出了更高的要求。
多渠道业务产生的海量异构数据使得数据复杂度提升。同时,库存、价格、促销等关键业务需要实时响应,对系统的实时性要求变得极为严苛。此外,ERP、POS、WMS、电商平台等多系统之间的数据融合也带来了前所未有的系统集成挑战。
1.3 数字化转型的战略意义
图2 滔搏全域数字化
向全域数字化转型的过程中,滔搏面临的不仅是技术选择问题,更是关乎企业未来竞争力的战略抉择。在这个过程中,数据处理能力成为了核心竞争力的重要组成部分。
1.4 传统架构面临的三大核心挑战
- 挑战一:IDC 及大数据软件栈维护成较高
在当前快速迭代的开源软件生态下,公司数据处理能力正面临 IDC 升级与多软件栈兼容性优化的关键节点。为更好地支持业务创新与效率提升,滔搏在新特性适配与技术能力建设方面尚有提升空间,需进一步增强功能完备性与性能表现。此外,借助活跃开源社区的力量持续强化安全漏洞的及时修复能力,也成为滔搏下一步的重点工作。与此同时,如何设计更平稳、低风险的跨版本升级路径,以保障业务连续性与系统稳定性,也是滔搏正在积极优化的重要方向。
- 挑战二:保障业务稳定,快速响应高峰分析需求
为应对业务流量波动,滔搏致力于提升资源弹性,构建更灵活的调度机制,以平衡资源利用率与成本效益。另一方面,为敏捷响应业务快速增长,滔搏正加速推进架构升级,增强可扩展性、缩短扩容周期,从而更好地支撑业务爆发式增长与市场机遇的快速捕捉。
- 挑战三:实时数据处理能力存在提升空间
当前的数据集成与处理流程在实时性方面仍有优化空间,例如通过引入流式处理与更高效的数据同步机制,可显著提升库存、价格等关键业务数据的更新频率,从而更快地响应前端业务变化,赋能实时决策与运营。
02湖仓1.0到2.0:技术演进的必然选择
2.1 湖仓架构 1.0:采用 Lambda 架构模式
滔搏构建的湖仓架构 1.0 实现了核心功能的上线及稳定运行:
架构特点
图3 湖仓架构 1.0
湖仓 1.0 采用了经典的 Lambda 架构模式,整个数据处理流程分为五个核心环节。首先是数据源层,包括数据库系统、外部数据接口以及手工上传的各类数据。然后通过数据采集环节,使用实时和离线两套采集工具体系来获取数据。采集完成的数据进入数据存储层,主要基于 Hadoop 集群架构,同时配合 Elasticsearch、MongoDB 等 NoSQL 数据库以及高速缓存系统。在数据处理环节,采用双引擎架构:Impala 负责离线批处理加工,Flink 承担实时流处理任务。最终在数据服务层,通过报表分析系统、Web 接口以及数据推送服务为业务提供支持。
待提升的技术环节
技术类型 |
提升方向 |
运维层面 |
在自建 IDC 机房中搭建 hadoop 集群 |
系统效率 及稳定性 |
随着数据量与计算任务的持续增长,Kudu、Impala 等组件在应对高并发与大规模数据处理场景时,其在性能与稳定性方面仍存在进一步提升的空间,需通过架构优化与技术升级增强其扩展性与可靠性,以更好地匹配企业日益增长的数据处理需求。 |
技术创新性 |
Kudu、Impala、Hudi 等技术在应对当前快速演进的数据架构需求时,其社区生态与技术支持能力面临一定挑战。为更好地满足企业级大规模数据处理需求,公司需积极探索并引入更具活力、响应更敏捷的新一代数据技术方案,以提升系统整体可维护性与未来扩展性。 |
2.2 湖仓架构2.0:采用“流批一体”的统一架构
面对 1.0 版本的种种问题,滔搏开始规划湖仓架构 2.0,这次升级的核心理念是"化繁为简"和"流批一体"。
架构选型原则
滔搏在进行 2.0 架构选型时,制定了清晰的技术选择标准:
- 技术先进性要求:技术必须由国人引领,确保技术深度和社区热度双重在线,因此,滔搏最终选择了 Apache Flink + Paimon 组合方案。
- 性能优异要求:采用 LSM+主键表设计,确保读写性能优异,同时提供流读流写功能的深度支持,Paimon 核心架构能高度满足这一需求。
- 生态完善要求:架构的搭建必须应用业界普遍适用的技术方案,支持 Schema 进化、时间旅行、回滚等企业级特性,确保完整的开源生态支撑。
- 面向未来要求:能够统一管理结构化与非结构化数据,面向AI模型训练的多模态数据存储需求,提供技术前瞻性保障。
统一架构的核心优势
新的湖仓架构 2.0 实现了多个层面的统一。在计算层面,一套架构全面支持流、批、OLAP 所有计算需求。在存储层面,通过湖仓数据一体化存储消除了数据孤岛,实现了真正的统一存储。同时,DLF 统一元数据管理实现了元数据标准化,SQL 统一数据处理提供了一致的开发接口,而 OSS 统一存储则确保了底层存储的标准化。
2.3 Flink+Paimon 架构选型与性能验证
技术选型的深度思考
在确定采用 Flink+Paimon 架构之前,滔搏进行了严格的性能测试和技术验证。这个过程不仅是技术选型,更是对未来业务发展的前瞻性判断。
Paimon 的核心设计理念
Paimon 作为新一代湖存储引擎,其设计理念与滔搏的业务需求高度吻合:
设计理念 |
技术实现 |
业务价值 |
湖存储 + LSM结构 |
满足高性能的更新写入以及 Changelog 生成 |
支持零售业务的频繁数据更新需求 |
离线数据近实时化 |
以低成本的方式解决全链路数据流计算 |
降低实时数据处理成本 |
与 Flink 高效集成 |
对接 Flink CDC,支持完整的 Flink SQL 语法 |
简化开发复杂度,提升开发效率 |
开放的生态体系 |
支持主流计算引擎 Spark、Presto/Trino、StarRocks/Doris |
保障技术生态的开放性和可扩展性 |
性能测试验证结果
滔搏进行了详细的性能对比测试,验证了 Paimon 相对于其他湖存储技术的显著优势:
图4 基于 Flink+Paimon 架构选型和性能测试
大规模数据入湖性能对比
- 5亿条数据入湖 MOR (Merge-On-Read) 模式
在大规模数据入湖的 MOR 模式测试中,Paimon 表现出了显著的性能优势。以 Paimon 作为基准性能参照,Hudi MOR 模式的表现明显落后,整体性能比 Paimon 慢了4.2倍。性能差异的根本原因在于两种技术的设计理念不同。Hudi MOR 的 Compaction 完全异步运行,导致太多数据没有得到及时合并,使得读取性能极差。相比之下,Paimon 在设计上默认会在写入和读取性能之间取得平衡,当 Compaction 过程太慢时会等待其完成,从而保证了整体性能的稳定性。
- 1亿条数据入湖 COW (Copy-On-Write) 模式
在 COW 模式的性能测试中,Paimon 的优势更加明显。同样以 Paimon 作为基准性能,Hudi COW 模式性能明显落后,整体表现比 Paimon 慢了14倍,这个差距体现了两种技术在 COW 模式实现上的根本性差异。
多维度性能优势
除了基础的写入性能,Paimon 在多个维度都表现出显著优势。在宽表合并能力方面,相比传统方案有4倍性能提升。在生态兼容性上,其强大的生态支持能力比传统方案强2倍。最为突出的是在变更日志流读方面,CDC 入湖性能提升达到了惊人的12倍。
2.4 架构 2.0 的整体效果
基于阿里云实时计算 Flink 版+Paimon 的湖仓架构 2.0 实施后,取得了显著的效果。新架构构建了完整的数据处理流水线:数据从各类数据源统一接入后,通过 Flink 引擎进行实时和离线的流批一体化处理,处理后的数据统一存储在 Paimon 湖存储中,再通过多种查询引擎提供灵活的数据查询能力,最终为各类业务应用提供实时响应服务。整个架构实现了从数据接入到业务应用的端到端一体化处理。
图5 湖仓架构2.0
整体提效明显:数仓 2.0 提效明显,运营效率显著提升,云上主流程耗时显著降低。
03实时湖仓架构的业务价值突破
3.1 零售敏捷力的双引擎:实时与准实时
滔搏的实时湖仓架构在业务层面实现了"实时·准实时"的双引擎驱动,为零售业务的敏捷性提供了强有力的技术支撑。
图6 “实时·准实时”双引擎驱动
3.2 精准定价与促销管理
在智能定价系统方面,滔搏通过实时追踪需求波动、竞品动态与季节趋势,能够基于实时数据动态优化定价策略,确保每次定价调整都有数据支撑,让利润持续增长。
在智能促销管理方面,系统能够实时评估活动表现并敏捷调整方案,确保每次营销都精准发力,效果最大化。这种智能促销模式使得营销效果能够立竿见影地显现出来。
3.3 实时销售跟进分析
通过实时湖仓架构,滔搏实现了门店表现的实时监控和智能预警,能够实现业绩风险的早发现早应对。基于实时数据进行销售策略调整,使得整个销售管理体系更加敏捷和高效。
3.4 实时调货补货系统
在智能库存管理方面,滔搏通过实时追踪各店库存状况,能够预判爆款需求,确保不断货、最大程度捕捉商机。同时,基于销售动态优化生产与配送,有效减少库存积压,加速资金流动,提升资金效率。
在数据驱动的供应链优化方面,通过数据驱动实现了周转提速,整体盈利效率得到显著提升。
3.5 实现线上线下库存共享
在全渠道库存统一方面,滔搏实现了线上线下渠道的无缝衔接,支持线上下单、就近发货,为顾客打造了流畅的购物体验。同时,滔搏通过技术系统整合消费全链路数据,深度挖掘用户行为,为业务决策提供了有力支撑。
在精准运营策略方面,滔搏持续构建更加智能的全域营销体系,通过打通线上线下实时互动链路,以数据驱动购物体验的持续优化。同时,滔搏通过实时捕捉并响应顾客反馈与市场动态,以不断提升运营响应速度与整体运营效能。
3.6 实时会员标签与个性化服务
在精准会员经营方面,滔搏通过动态追踪消费轨迹,能够准确识别核心客群,为核心客户量身定制专属礼遇,有效提升品牌忠诚度。
在个性化推荐与营销方面,系统基于实时行为数据,为每位顾客打造专属商品推荐,从而提升成交率;同时系统也会根据客群特征实时调整促销策略,通过个性化优惠券直击消费需求,实现精准投放。
3.7 业务价值量化指标
通过实时湖仓架构的实施,滔搏在多个业务维度取得了显著成效:
业务维度 |
改善效果 |
具体表现 |
开发效率 |
显著提升 |
代码流批复用 |
运维成本 |
显著降低 |
团队效率提升 |
数据一致性 |
统一保障 |
实现流批一致 |
整体任务效率 |
显著提升 |
通过技术手段和算法优化 |
业务满意度 |
显著提升 |
支撑多个复杂业务场景 |
04挑战与收益:从技术约束到开源贡献
4.1 业务复杂性带来的技术挑战
滔搏在实施实时湖仓架构过程中,面临的不仅是技术选型问题,更是业务复杂性与技术实现的深度融合挑战。
图7 业务复杂vs价值创新
4.2 多系统集成挑战
在系统复杂度方面,滔搏需要面对 ERP、WMS、POS 等多个系统的实时数据融合挑战。通过统一实时接入技术,把数据源的数据都实时接入数仓,实现了秒级延迟的数据处理,后续的消费也能实时联动。
在业务需求驱动方面,全域零售+实时零售的模式要求更快的库存响应和全渠道库存动态调补。同时,促销规则的实时计算和校验,订单渠道归属,佣金的计算都有非常复杂的规则和计算逻辑需要处理。
4.3 从复杂架构到统一架构的转型挑战
- 传统架构的复杂性
挑战类型 |
具体表现 |
业务影响 |
多引擎并存 |
Hive、Kudu、Impala 等引擎多重维护 |
维护成本高,技术栈复杂 |
数据一致性挑战 |
存在发生流批不一致情况的可能 |
影响业务决策的准确性 |
运维复杂度高 |
故障排查成本高 |
系统稳定性存在提升空间 |
- 统一架构的收益
收益维度 |
具体效果 |
价值体现 |
流批一体价值 |
一套代码流批复用 |
开发效率显著提升 |
数据一致性保障 |
统一计算引擎消除一致性问题 |
业务决策更加准确 |
运维成本降低 |
运维成本显著降低 |
团队效率提升,专注业务创新 |
4.4 人才约束与开源贡献的双重突破
图8 人才约束 VS 开源贡献
人才约束的现实困境
作为传统零售企业,滔搏在技术人才方面面临的挑战具有典型性。在学习曲线方面,从 Hadoop 生态转型意味着面临知识体系的重构,需要通过解决实际问题来深度理解内核机制。在人才密度方面,相比互联网公司,零售企业技术团队"摸着石头过河"的探索成本相对较高。
开源贡献的价值创新:从使用者到贡献者的转变
滔搏选择了一条创新的道路——积极参与开源贡献:
- 技术贡献层面:主动向 Paimon 项目贡献源码,通过实际的技术输出提升企业在开源社区的技术影响力和话语权。
- 人才吸引层面:优质的技术人才更愿意加入有开源贡献实力的企业,滔搏通过提升在技术方面的实力和影响力,推动更多技术人才加入公司,显著提升了公司对技术人才的吸引力。
- 价值放大层面:每一次开源贡献都是技术价值的倍数放大,不仅解决自身问题,更推动整个开源生态的共建共享。
4.5 技术跃迁哲学
滔搏在数字化建设过程中实现了自身技术的跃迁与开源价值共创,这不仅是滔搏的实践总结,更是传统企业数字化转型的重要启示。
三个关键理念
- 实践催生创新是滔搏实践中的重要发现。深度思考与反复实践促进了技术的跃迁,每个挑战都成为了团队成长的催化剂。
- 开源共建共享的理念贯穿了整个转型过程。在获得社区支持的同时,滔搏积极回馈技术生态,每次贡献都是技术价值的放大。
- 价值双向流动体现了滔搏从"使用者"到"贡献者"的角色转变,证明了传统企业也能在技术前沿有所作为。
05总结:零售数字化转型的技术启示
滔搏从 Lambda 架构到阿里云实时计算 Flink 版+Paimon 统一架构的转型实践,为整个零售行业的数字化转型提供了宝贵的经验和启示。滔搏的技术选型体现了三个重要原则:不仅要解决当前问题,更要面向未来业务发展;技术先进性与社区生态活跃度同样重要;性能验证必须基于真实业务场景进行。这种前瞻性的思考方式确保了技术投资的长期价值。在架构演进过程中,滔搏采用了系统性的方法论:从复杂到简单的统一化思路帮助消除了技术栈的冗余;流批一体的架构理念实现了计算统一;数据湖仓一体化的存储策略解决了数据孤岛问题。
滔搏的实践证明了三个重要观点:技术升级必须转化为业务价值才有意义;实时性能力是零售竞争力的重要组成部分;数据驱动决策已经成为企业的核心能力。这种业务价值导向的技术实践为其他企业提供了重要参考。滔搏的实践不仅是单个企业的技术升级,更代表了传统零售企业数字化转型的一种范式,体现了技术民主化的重要趋势。开源生态有效降低了技术门槛,企业可以实现从技术消费者到技术贡献者的角色转变,这种趋势为更多传统企业的数字化转型提供了可能。
滔搏的实践展现了业务与技术深度融合的价值。技术选型必须服务于业务战略,实时数据处理成为业务敏捷性的基础,数据一致性是业务决策准确性的保障。这种深度融合模式为传统企业的技术架构升级提供了重要指导。滔搏的开源实践揭示了协作价值的多重维度:企业参与开源不仅是获取技术,更是价值共创的过程;技术贡献已经成为人才吸引和品牌建设的重要途径;开源生态为传统企业提供了技术跃迁的难得机会。
展望未来,滔搏将持续推动技术架构的演进,在开源生态中发挥越来越重要的作用。
来源 | Apache Flink公众号