【赵渝强老师】基于Flink的流批一体架构

2024-11-14 997

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了Flink如何实现流批一体的系统架构，包括数据集成、数仓架构和数据湖的流批一体方案。Flink通过统一的开发规范和SQL支持，解决了传统架构中的多套技术栈、数据链路冗余和数据口径不一致等问题，提高了开发效率和数据一致性。

由于Flink集成了批计算和流计算，因此可以使用Flink构建流批一体的系统架构，主要包含数据集成的流批一体架构、数仓架构的流批一体架构和数据湖的流批一体。

一、数据集成的流批一体架构

视频讲解如下：

在大数据场景下经常需要数据同步或者数据集成，也就是将数据库中的数据同步到大数据的数仓或者其他存储中。下图中的左边是传统的经典数据集成的模式之一，全量的同步和增量的同步实际上是两套技术，需要定期将全量同步的数据跟增量同步数据做合并，不断的迭代来把数据库的数据同步到数据仓库中。

基于Flink流批一体整个数据集成的架构将不同。因为Flink SQL也支持数据库的CDC语义，所以可以用Flink SQL一键同步数据库的数据到Hive、Click House和TiDB等开源的数据库或开源的KV存储中。在Flink流批一体架构的基础上，Flink CDC也是流批混合的，它可以先读取数据库全量数据同步到数仓中，然后自动切换到增量模式。通过Flink CDC读数据库日志进行增量和全量的同步，Flink内部都可以自动协调好，这是流批一体的价值。

二、数仓架构的流批一体架构

目前主流数仓架构都是一套典型的离线数仓和一套新的实时数仓，但这两套技术栈是分开的。在离线数仓里，还是习惯用 Hive 或者 Spark；在实时数仓中用 Flink和Kafka。这里就有三个问题需要解决：两套开发流程，成本高；数据链路冗余，两套链路将数据相关的操作做了两遍；数据口径的一致性难以保证，因为它是由两套引擎算出来的。用流批一体架构来解决，以上难题将极大降低。

视频讲解如下：

首先，Flink 是一套开发规范，不存在两套开发成本。一个开发团队，一套技术栈，就可以做所有的离线和实时业务统计的问题。
第二，数据链路也不存在冗余，计算一次即可，不需要离线再算一遍。
第三，数据口径天然一致。无论是离线的流程，还是实时的流程，都是一套引擎、一套 SQL、一套 UDF、一套开发人员，所以它天然是一致的，不存在实时和离线数据口径不一致的问题。

数据仓库的流批一体架构如下图所示。

三、数据湖的流批一体

Hive元数据的管理是性能的瓶颈，同时Hive也不支持数据的实时更新。Hive没有无法实现实时或者准实时化的数据处理能力。现在比较新的数据湖架构，可以解决更具扩展性的元数据的问题，而且数据湖的存储支持数据的更新，它是一个流批一体的存储。数据湖存储与Flink结合，就可以将实时离线一体化的数仓架构演变成实时离线一体化的数据湖架构。

视频讲解如下：

数据湖的流批一体架构如下图所示。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

【赵渝强老师】基于Flink的流批一体架构

一、数据集成的流批一体架构

二、数仓架构的流批一体架构

三、数据湖的流批一体

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景