Flink+Hologres实时数仓在Lazada的建设及应用

简介: 徐鑫豪

image.png

阿里正在将国内成功商业模式用于东南亚市场进行探索与尝试。上图为东南亚6个主要国家的商业调研数据,Lazada综合电商平台包含MarketplaceLazMall、跨境等多种商业模式,通过自建物流网络与推出LazPay不断升级东南亚电商的基础设施。

image.png

大数据在国内经过淘系将近20年的打磨,已经非常成熟。Lazada数据体系与淘系数据体系非常相似,主要分为六个部分。

最左侧数据源最右侧数据应用中间为数据集成、数据建模与计算、数据聚合与集市以及数据服务。数据集成主要依靠cdpdatahub系统数据建模分为离线和实时两部分,其中离线模块基于 MaxCompute 实时模块基于 Flink 平台实现了实时数仓。集市层,2020年后逐渐使用Hologres统一替换了此前比较繁杂数据结果层与数据计算层中间件。

image.png

大促是电商常见且非常重要的场景,我们期望能够通过实时数据实时技术赋能大促或改变整个业务形态。

大促营销分为三个阶段,分别是促前、促中与促后。促前包括各种准备工作,比如招商、选品会场页面搭建,是一些比较离线或长周期动作;促中阶段需要预热蓄,为加购流量分发以及动态调控做准备此阶段多为实时决策实时调控,需要实时数据作为支撑;促需要进行业务复盘与数据分析数据PR

为了支撑业务侧实时决策与实时调控,需要对原先离线数据架构进行改造。因此,我们利用 Flink+ Hologres将数据链路全部进行实时化体系化升级利用 Hologres OLAP查询能力,能够在大促当天支持业务做实时分析,比如在极短时间内进行快速查询与分析,圈选优惠券发放的目标人群

image.png

大促发放优惠券讲究策略与节奏,比如需要圈选目标人发完券之后用户是否领取了优惠券、领取之后有否使用等问题都会影响大促节奏调控。我们需要基于实时数据,业务开发人员结合更多数据资产用户本身购买力消费习惯做目标人群锁定,并在大促期间给出实时反馈。

具体实现如下: DataHub 消息中间件消费用户实时领取与使用数据。同时因为大促周期长,需要将用户历史状态数据也一并进行计算。因此会将离线 odps 表作为初始化表,在 Flink 任务里进行实时与离线两种不同数据 source 消费。消费完之后,一方面会将数据写进 DataHub 消息中间件,推送给下游营销系统直接消费与使用另外会将数据存放到 Hologres为业务人员提供实时 OLAP 分析数据指标与数据标签。数据存入Hologres里既能够对用户购买力、消费习惯与偏好类目基础性数据资产类数据做分析,同时也能与大促中实时变化交易与权益变化数据做关联查询,快速锁定不同业务需要目标人群。

通过以上技术链路与方案,能够实现大促场景中动态调整运营策略与运营动作业务过程。

该方案中,使用Flink计算引擎同时消费实时与离线两种不同数据源,实现了流批体实时计算能够将用户历史累计权益数据结合实时变化权益数据进行实时计算,得到用户全状态权益领用及实时数据

此外,架构里还实现了实时与离线混合 OLAP 分析,在 Hologres 计算引擎里存有离线数据,供一些较为复杂的离线方式计算,计算后同步到 Hologres再将线上实时变化状态类数据同时写Hologres因此,Hologres会有全状态与非常大范围用户整体数据除了能够观测到当前状态,也能够对历史行为与表现进行综合性分析。

通过方案,营销活动系统从原先离线化状态成功过渡到可调控可决策可落地实时系统

image.png

Lazada LAB实验平台累计了万级的实验数量,实验数量排名处于 top 5 水平,支持百级子业务阈,千级月实验人数

image.png

LAB架构分为三个层次,从下至上分别是数据模块、系统模块和应用模块

数据模块利用数据存储引擎已经全部切换为Hologres 实验里通用数据和业务指标会进行提前预计算能够减轻Hologres 计算压力。另外会将明细层数据与轻度汇总层数据通过实时计算方式写到Hologres,以支撑在AB 实验场景里自定义与灵活快速分析所需能力。最后将各种实验维度数据同步到 Hologres 进行自定义分析与查询使用。

image.png

上图为LAB平台实验数据流加工过程。

数据源常见Binlog 数据,包括日志采集搜推广日志数据。离线数仓也会进行数据加工然后写到离 Hologres。另外会通过Flink实时计算与操作,将实时明细层与汇总层数据同步到 Hologres

因此 Hologres 建立了一套完整实时数仓,有实时的 DWD明细层, ADS 层存有很多计算好的离线数据,还有DWS数据以及维度数据。其上还建设大量逻辑视图与部分物化视图因为实验场景中,查询条件或查询模式对于表使用非常固定可能需要通过逻辑视图与物化视图将经常使用查询方式与指标固化,增加前端实验性能。

以上架构利用 Hologres 强大查询与数据写入导出能力,提升了整个 LAB平台实验速率与效率。

image.png

关于Hologres的使用,存储方面,分布式数据的使用首先必须确保数据合理均匀分布存储,另外数据使用行存还是列存,需要依赖于业务场景使用诉求。分区表选择时,一定要有分布键TableGroup Shard分配时,需要做校验操作有维表校验也有事实表之间的校验。因此需要结合维表数据量业务场景不断实践与摸索。

计算方面,Hologres提供了主键的设计替代、近似计算、聚簇索引、时间分段索引优化字典编码等存储引擎。

image.png

阿里利用 MaxCompute支撑与实现了离线数仓基础体系建设。Flink 问世后,阿里数据体系从原先的离线系统彻底转化实时数仓体系。随着 Hologres云原生OLAP数据引擎诞生,我们已经可以窥到湖仓一体可能的实现和使用方式,并以此支撑异构多元智能计算。

我们期望能够利用 Hologres服务与分析一体化能力,结合 AI 处理,在一个平台、一个组件上快速完成数据加工,将业务价值通过技术平台高效释放。

牛顿,站在巨人肩膀上能让我们看得更远。而我们也坚信,有阿里云这样一个巨人,我们能够将数据业务价值发挥得更加透彻、更加淋漓尽致。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
9月前
|
存储 消息中间件 OLAP
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
1667 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
|
10月前
|
消息中间件 存储 监控
Lalamove基于Flink实时湖仓演进之路
本文由货拉拉国际化技术部资深数据仓库工程师林海亮撰写,围绕Flink在实时数仓中的应用展开。文章首先介绍了Lalamove业务背景,随后分析了Flink在实时看板、数据服务API、数据监控及数据分析中的应用与挑战,如多数据中心、时区差异、上游改造频繁及高成本问题。接着阐述了实时数仓架构从无分层到引入Paimon湖仓的演进过程,解决了数据延迟、兼容性及资源消耗等问题。最后展望未来,提出基于Fluss+Paimon优化架构的方向,进一步提升性能与降低成本。
384 11
Lalamove基于Flink实时湖仓演进之路
|
10月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
951 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
9月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
5月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
638 1
Flink基于Paimon的实时湖仓解决方案的演进
|
5月前
|
存储 人工智能 监控
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
本文整理自淘宝闪购(饿了么)大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享,深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践,涵盖实时数仓发展、技术选型、平台建设及未来展望。
1133 0
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
|
7月前
|
存储 传感器 数据采集
什么是实时数仓?实时数仓又有哪些应用场景?
实时数仓是一种能实现秒级数据更新和分析的系统,适用于电商、金融、物流等需要快速响应的场景。相比传统数仓,它具备更高的时效性和并发处理能力,能够帮助企业及时捕捉业务动态,提升决策效率。本文详细解析了其实现架构与核心特点,并结合实际案例说明其应用价值。
|
11月前
|
存储 缓存 数据挖掘
Flink + Doris 实时湖仓解决方案
本文整理自SelectDB技术副总裁陈明雨在Flink Forward Asia 2024的分享,聚焦Apache Doris与湖仓一体解决方案。内容涵盖三部分:一是介绍Apache Doris,一款高性能实时分析数据库,支持多场景应用;二是基于Doris、Flink和Paimon的湖仓解决方案,解决批流融合与数据一致性挑战;三是Doris社区生态及云原生发展,包括存算分离架构与600多位贡献者的活跃社区。文章深入探讨了Doris在性能、易用性及场景支持上的优势,并展示了其在多维分析、日志分析和湖仓分析中的实际应用案例。
957 17
Flink + Doris 实时湖仓解决方案
|
11月前
|
存储 运维 监控
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。
1178 3
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
|
11月前
|
存储 SQL Java
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
802 1
Flink CDC + Hologres高性能数据同步优化实践

相关产品

  • 实时计算 Flink版