分钟级实时数据分析的背后——实时湖仓产品解决方案

2024-01-26 80

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 袋鼠云在结合当前数据湖技术的基础上，建设实时湖仓平台，满足客户“快、精、准”的数据需求。本文将详细介绍实时湖仓产品解决方案，让企业能够更专注地去解决他们的业务价值。

随着信息技术的深入应用，企业对市场的响应速度也在不断提升，而且这种响应速度正在变得越来越快，没有最快只有更快。对数据实时性要求的提高，是眼下很多企业遇到的一个新的挑战。

从生产侧的视角来看，系统实时监控与实时健康状态检测已成为确保系统稳定性和可靠性不可或缺的关键功能。它们能够即时捕捉并处理潜在问题，对系统的顺畅运行起到保驾护航的作用。而在营销侧领域，搜索推荐、实时营销策略制定以及分钟级趋势分析能力，则成为了企业运营团队的核心竞争力。具体到业务实操层面，实时欺诈检测技术、异常交易监测机制、精准的行为认证手段和高效的账户校验系统等，在现今的商业环境中都扮演着至关重要的角色。

简单来说，数据的时效性，是否足够“快、精、准”，会真正影响到一个企业的生存。

随着技术的发展，湖仓一体的概念开始被提出，袋鼠云在结合当前数据湖技术的基础上，建设实时湖仓平台，满足客户亟待解决的数据需求。本文将详细介绍实时湖仓解决方案，让企业能够更专注地去解决他们的业务价值。

实时业务场景遇到的问题

数字化时代，实时数据运用广泛，尤其在互联网、电商、金融等行业，实时数据反馈对业务运营和决策制定至关重要，对于数据时效的要求都达到了分钟级甚至秒级。

下文以信贷业务的银行动帐场景为例，介绍当前实时数据应用的业务场景，以及遇到的困境。

动帐交易，主要指开通帐户线上发生的业务，包括支付转帐、内部转帐、转存、网上缴费等交易。如：“交易流水表” 23:00:00，张三转入100元；“客户表” 张三的余额从100元更新为200元。

每次的一次动账操作都是一个事务，至少要操作两张表。第一张表是交易流水表，记录转账的一次行为，第二张则是用户的属性表，其中有一个字段是用户的余额，需要随着转账同步更新。

• 用户交易流水表

主要为 Insert 操作，记录行为信息，适合增量计算，如：统一开户、取款、贷款、购买理财等事件行为。

• 客户属性表

主要为 Update 操作，记录属性信息，适合全量计算，如：客户存款、贷款、理财、基金、保险等产品的余额。

在湖仓技术出现以前，企业在做数据建设时基本采用 Lambda 架构实现流和批数据流的架构。原因在于，Lambda 架构是当时比较成熟稳定的流/批数据处理模式，在各个领域的应用也非常广泛；同时因为其耦合度低，标准化高的优点，使得 Lambda 架构数据处理模式可以更简便、高效、稳定地应用于各个场景。出于稳妥的考虑，大多数企业会将 Lambda 流批分离的方式建构实时和离线的数仓。

应用在银行动帐场景中，如下图所示：

但是它有很多致命的弱点：

· 数据具有二义性，难保证一致

· 数据重复计算，资源占用多

· 需要开发和维护两套代码逻辑

· ……

同时，Lambda 架构下 Hive 和 Kafka 也存在问题。Kafka 作为高性能的消息队列和流处理平台，数据无法持久化存储，并且不支持直接 OLPA 查询。

Hive 作为大数据仓库工具，存在不支持 ACID，无法同时读写；不支持行列更新，只能全表更新；对于 Schema、Patition 变更不友好；数据查询性能慢等问题。

实时湖仓技术架构

面对上述问题，应该如何应对？袋鼠云给出了「实时湖仓」这个答案。

新型的湖仓一体格式，都有一个共同特点，就是可以做流批统一，比如：流批的读写接口都具备，拥有 ACID 的能力，流批一体可以并发去读写。能够很好地解决 Kafka 和 Hive 中存在的问题：

· 基于数据湖存储，可以让流数据持久化

· 支持使用 OLAP 分析引擎直接查询中间结果数据

· 支持 ACID 语义（并发读写），支持行级数据更新

· Schema Evolution 机制，可灵活修改表、分区信息

· 更高效扫描计划，数据查询效率提升

只是湖仓一体还不够，面对如上文所述的实时场景需求，以前的T+1已经不能满足，T+0实时场景越来越多。针对实时场景，做一个新的技术架构，这就是实时湖仓，实现技术与应用场景的支持和融合。

批处理技术在离线数仓场景中扮演关键角色，有效解决了数据更新滞后、表结构变更复杂等长期存在的痛点问题；而流处理则着力于解决流式数仓所面临的挑战，诸如数据不落地导致的易丢失风险。将两者融合为流批一体架构，通过减少数据在不同处理阶段间的流转环节，从而提高了整个系统从数据输入到输出的一致性和可靠性，满足了实时和历史数据分析的双重需求。

技术上，通过流批一体设计，实时湖仓能够整合流处理与批量处理，从而有效降低数据链路的重复开发成本；在存储层面，它解决了传统架构中存储分离的问题，实现统一的数据存储管理，进而降低了存储运维成本。同时，在数据管理方面，实时湖仓提供了统一的元数据和权限管理体系，确保了数据的安全性和一致性，实现了从技术到存储再到数据安全层面的高度融合与优化。