关于流批一体的几点思考

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 关于流批一体的几点思考

流批一体主要核心在三个方面:

存储一体
计算一体
应用一体

1、统一数据采集层。

数据源:在数据源层面,分为日志类和业务类,使用一致的的采集方法。使用Flink CDC统一采集,经Kafka传输到数据存储层。这样不需要再维护Sqoop和另一套采集系统。

2、统一数据存储层。

消息队列

首先在计算层,Pulsar Broker 不保存任何状态数据、不做任何数据存储,称之为服务层。其次,Pulsar 拥有一个专门为消息和流设计的存储引擎 BookKeeper,称之为数据层。如果要支持更多的 Producer 和 Consumer,可扩充上面无状态的 Broker 层;如果要支持更多的数据存储,可单独扩充底层存储层。这种分层的架构为做批流融合打好了基础。因为它原生分成了两层,可以根据用户的使用场景和批流的不同访问模式,来提供两套不同的 API。

如果是实时数据的访问,可以通过上层 Broker 提供的 Consumer 接口;
如果是历史数据的访问,可以跳过 Broker,用存储层的 reader 接口,直接访问底层存储层。

数据湖

可使用Hudi、Iceberg、paimon作为流批一体的统一存储层。统一存储数仓的ODS、DWD、DWS、DWT、DM各层数据。

(1)存储原始数据,数据结构多样化。
(2)支持多种计算模型,解耦计算引擎和存储系统。
(3)支持灵活廉价的底层存储,可使用本地HDFS、或云上对象存储S3、OSS。
(4)支持事务ACID。

3、统一元数据层。

使用Flink Catalog统一元数据管理,例如数据库、表、分区、视图以及外部系统。Catalog提供统一API,统一管理元数据,使其可从TableAPI和SQL查询语句中访问。使用Flink Catalog解决了大数据引擎不同元数据格式造成的复杂问题,并且Catalog与Hive MetaStore兼容。

4、统一计算引擎层。

使用Flink Unified DataStream统一计算引擎层。Flink Unified DataStream能更好支持流和批两种计算模式。Unified DataStream统一和简化了以前流批要分别使用DataStream和Dataset的繁琐。并且Unified DataStream针对Unbounded场景,在磁盘I/O访问,序列化和反序列化做了优化,使得Unbounded和Bounded的效率、可用性、易用性都得到很大提升。

5、统一SQL引擎层。

可使用Flink SQL或Presto/Trino。Flink SQL将流处理和批处理统一,支持大部分标准SQL的语法和语义。

6、统一应用层

结果视图需要支持低延迟的查询分析,通常需将数据结果存储到列存分析系统,可使用doris/starrocks和Presto/Trino。

7、初步架构设计

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
存储 SQL 分布式计算
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。
27917 2
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
|
2月前
|
存储 监控 Cloud Native
Serverless 应用的监控与调试问题之Flink流批一体在架构层面有什么演进
Serverless 应用的监控与调试问题之Flink流批一体在架构层面有什么演进
|
5月前
|
SQL 存储 分布式计算
流批一体技术简介
本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。
50515 3
流批一体技术简介
|
存储 分布式计算 Cloud Native
湖仓一体概念快问快答
湖仓一体概念快问快答
790 0
湖仓一体概念快问快答
|
消息中间件 大数据 数据挖掘
深入浅出流批一体理论篇,数据架构的演进
这篇文章的主要内容包括:1、数据架构的演变历史与各种架构的优缺点。2、流批一体的价值。3、流批一体架构中流与批的关系。
49906 74
|
5月前
|
存储 SQL API
读Flink源码谈设计:流批一体的实现与现状
在Dataflow相关的论文发表前,大家都往往认为需要两套API来实现流计算和批计算,典型的实现便是Lambda架构。
615 0
|
SQL 存储 分布式计算
Flink 流批一体在 Shopee 的大规模实践
Shopee 研发专家李明昆在 Flink Forward Asia 2022 流批一体专场的分享。
10300 0
Flink 流批一体在 Shopee 的大规模实践
|
SQL 存储 消息中间件
流批一体的近实时数仓的思考与设计
欢迎大家多分享具体实践,一起共筑新的数据实践方式。
9921 2
流批一体的近实时数仓的思考与设计
|
存储 算法 大数据
数仓已死?数据湖当立!
数仓已死?数据湖当立!
|
消息中间件 存储 关系型数据库
Flink 流批一体方案在数禾的实践
上海数⽲信息科技有限公司⼤数据架构师杨涵冰,在 Flink Forward Asia 2022 流批一体专场的分享。
Flink 流批一体方案在数禾的实践
下一篇
无影云桌面