Flink 内核原理与实现-入门

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink 内核原理与实现-入门

一、核心特点

1.1、流批一体

1、无界数据

       无界数据是持续产生的数据,所以必须持续的处理无界数据流。因为输入是无限的,没有终止时间。处理无界数据通常要求以特定顺序获取,以便判断事件是否完整、有无遗漏。


2、有界数据

       有界数据就是在一个确定的时间范围内的数据流,有开始有结束,一旦确定了就不会再改变。


1.2、可靠的容错能力

1、集群级容错

与集群管理器集成

       Flink与集群管理器紧密集成,例如Yarn、K8s。当进程挂掉时,将自动启动一个新进程来接管它工作。


高可用性设置

       Flink具有高可用性模式特性,可消除所有单点故障。HA模式基于Apache Zookeeper。


2、应用级容错

   Flink使用轻量级分布式快照机制,设计了检查点(CheckPoint)来实现可靠的容错。


一致性

       Flink的恢复机基于应用程序状态的一致性检查点。如果发生故障,将重新启动应用程序并从最新的检查点加载其状态。Flink利用检查点特性,在框架层面提供了Exactly-Once的支持,内置了支持Exactly-Once语义的Sink,即使出现故障,也能保证数据只写出一次。


轻量级

       对于长期运行的Flink,其检查点的状态可能高达TB级,生成和保存检查应用程序的检查点成本非常高。所以Flink提供了检查点的执行异步和增量检查点,以便尽量降低生成和保存检查点带来的计算负荷,避免数据处理的延迟异常变大和吞吐量的短暂剧降。


1.3、高吞吐、低延迟

       Flink借助轻量级分布式快照机制,能定时生成分布式快照,并保存到外部存储中。检查点之间的数据处理被当做是原子的。如果失败,直接回到上一个检查点重新执行。在整个数据处理过程中不会产生阻塞。Flink在数据的计算、传输、序列化等方面也做了大量的优化,既能保持数据处理的低延迟,也能尽可能提高吞吐量。


1.4、大规模复杂计算

有状态计算

轻量级容错

1.5、多平台部署

       Flink是一个分布式计算系统,可以与常见的集群管理器(如Hadoop Yarn、K8s)集成,也可以在物理服务器上作为独立集群运行。


二、架构

2.1、技术架构

Flink技术架构图如下:

640.png

对于开发者而言,直接使用API层和应用框架层,两者的差别在于API的层次不同,API层是Flink对外提供的核心API,应用框架层是在核心API之上提供的面向特定计算场景、更加易用的API。


应用框架层

       指根据API层的划分,在API层之上构建的满足特定应用场景的计算框架,总体上分为流计算(Flink Table&SQL、FlinkCEP)和批处理(Flink Table&SQL、FlinkML、FlinkGelly)两类应用框架。


API层

       API层是Flink对外提供能力的接口,实现了面向流计算的DataStream Api和面向批次处理的DataSetApi。为了推进流批API的统一,DataSet API未来会被废弃。


运行时层

DAG抽象:将分布式计算作业拆成并行子任务,每个子任务表示数据处理的一个步骤,并在上下游之间建立数据流的流通关系。

数据处理:包含了开发层面、运行层面的数据处理抽象。如 Join、Filter等。

作业调度:调度流批作业的执行。

容错:提供了集群级、应用级容错处理机制,保障集群、作业的可靠运行。

内存管理、数据序列化:通过序列化,使用二进制方式在内存中存储数据,避免JVM的垃圾回收带来的停顿问题。

数据交换:数据在计算任务之间的本地、跨网络传递。

部署层

       Flink提供了灵活的部署模式,如 Strandalone、Yarn、Mesos、K8s、云服务


连接器

       Connector是Flink计算引擎与外部存储交互的IO抽象,是Source和Sink的具体实现。


2.2、运行架构

     Flink运行架构图如下:

640.png

Flink采用Master-Slave架构,Master的角色是JobManager,负责集群和作业管理,Slave的角色是TaskManager,负责执行计算任务。


Flink客户端:是Flink提供的CLI命令行工具,用来提交Flink作业到Flink集群,在客户端中负责Stream Graph(流图)和Job Graph(作业图)的构建。

JobManager:根据并行度将Flink客户端提交的Flink应用分解为子任务,从资源管理器申请所需要的的计算资源,资源具备后,开始分发任务到TaskManager执行Task,并负责应用容错,跟踪作业的执行状态,发现异常则恢复作业等。

TaskManager:接收JobManager分发的子任务,根据自身的资源情况,管理子任务的启动、停止、销毁、异常恢复等生命周期阶段。

接下来Flink应用篇,如果对Flink感兴趣或者正在使用的小伙伴,可以加我入群一起探讨学习。


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
Java 流计算
【极数系列】Flink搭建入门项目Demo & 秒懂Flink开发运行原理(05)
【极数系列】Flink搭建入门项目Demo & 秒懂Flink开发运行原理(05)
112 3
|
1月前
|
运维 监控 Java
面经:Storm实时计算框架原理与应用场景
【4月更文挑战第11天】本文是关于Apache Storm实时流处理框架的面试攻略和核心原理解析。文章分享了面试常见主题,包括Storm的架构与核心概念(如Spout、Bolt、Topology、Tuple和Ack机制),编程模型与API,部署与运维,以及应用场景与最佳实践。通过代码示例展示了如何构建一个简单的WordCountTopology,强调理解和运用Storm的关键知识点对于面试和实际工作的重要性。
72 4
面经:Storm实时计算框架原理与应用场景
|
1月前
|
存储 NoSQL 分布式数据库
【Flink】Flink分布式快照的原理是什么?
【4月更文挑战第21天】【Flink】Flink分布式快照的原理是什么?
|
1月前
|
SQL Prometheus Kubernetes
实时计算 Flink版产品使用合集之时间戳读取的原理是什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
分布式计算 监控 API
flink 入门编程day02
flink 入门编程day02
|
1月前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
297 0
|
1月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
510 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
1月前
|
SQL 缓存 分布式计算
flink1.18 SqlGateway 的使用和原理分析
# 了解flink1.18 sqlGateway 的安装和使用步骤 # 启动sqlgateway 流程,了解核心的结构 # sql提交流程,了解sql 的流转逻辑 # select 查询的ResultSet的对接流程,了解数据的返回和获取逻辑
|
1月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
47107 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
1月前
|
SQL 关系型数据库 Apache
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
809 1