Flink 引擎

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink 引擎

💨Flink诞生的背景

什么是大数据?

🚩大数据指在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

🎈大数据的计算架构经过几个发展阶段后到了Flink引擎这里已经可以实现流计算、实时、更快、流批一体还支持SQL

什么是流式计算又为什么需要?

🚩在日常生活中,我们通常会把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个 时效性的问题。如果我们处理以年、月为单位的级别的数据,那么数据的时效性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。 🚩而流式计算,顾名思义,就是对数据流进行处理,是实时计算。

💨详谈Flink

Flink的优点

🚩计算模式(Streaming Model):Native🚩一致性保证:Exactly-Once🚩延迟:低(毫秒级)🚩吞吐:High🚩容错:Checkpoint🚩状态(StateFul):Yes(Operator)🚩SQL支持:Yes

🎈Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

Flink分层架构

图片.png

🚩最上面是SDK层,就是Flink给用户提供的SDK,目前主要有三类, SQL/Table、DataStream、Python;
🚩执行引擎层(Runtime层):执行引擎层提供了统一的DAG,用来描述数据处理的Pipeline,不管是流还是批,都会转化为DAG图,调度层再把DAG转化成分布式环境下的Task,Task之间通过Shuffle传输数据;🚩状态存储层:负责存储算子的状态信息;🚩资源调度层:目前Flink可以支持部署在多种环境。

Flink总体架构

图片.png

🎈一个Flink集群,主要包含两个核心组件:

🚩 JobManager(JM):负责整个任务的协调工作,包括:调度task、触发协调Task做Checkpoint、协调容错恢复等;🚩 TaskManager(TM):负责执行一个DataFlow Graph的各个task以及data streams的buffer和数据交换。

🎈JM的职责

JM分成三个小部件

🚩Dispatcher:接收作业,拉起 JM来执行作业,并在JobMaster挂掉之后恢复作业;🚩JobMaster:管理一个job的整个生命周期,会向ResourceManager申请slot,并将task调度到对应 TM上;🚩ResourceManager:负责slot资源的管理和调度, TM拉起后会向RM注册;

Flink如何做到流批一体

🎈为什么需要流批一体?✔比如在抖音中,我们需要实时地获取一个短视频的播放量,点赞数,评论数,当然也包括抖音直播间的实时观看人数等。而流批一体可以帮助我们减少资源消耗、降低 架构复杂性、提升价值产出效率

✨Flink主要从一下几个模块来做流批一体

🚩SQL层;🚩DataStream API层同意,批和流都可以使用DataStream来开发;🚩Scheduler层架构统一,支持流批场景;🚩Failover Recovery层架构统一,支持流批场景;🚩Shuffle Service层架构统一,流批场景选择不同的Shuffle Service;🍳在流处理引擎之上,Flink 有以下机制: 检查点机制和状态机制:用于实现容错、有状态的处理; 水印机制:用于实现事件时钟; 窗口和触发器:用于限制计算范围,并定义呈现结果的时间。  🍳在同一个流处理引擎之上,Flink 还存在另一套机制,用于实现高效的批处理。 用于调度和恢复的回溯法:由 Microsoft Dryad 引入,现在几乎用于所有批处理器; 用于散列和排序的特殊内存数据结构:可以在需要时,将一部分数据从内存溢出到硬盘上; 优化器:尽可能地缩短生成结果的时间。


  • Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。
  • 批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。
  • 流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
5月前
|
SQL 消息中间件 Kafka
流数据湖平台Apache Paimon(二)集成 Flink 引擎
流数据湖平台Apache Paimon(二)集成 Flink 引擎
442 0
|
3月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
498 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
12月前
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
175 0
|
12月前
|
机器学习/深度学习 存储 分布式计算
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
284 0
|
12月前
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
165 0
|
12月前
|
存储 缓存 分布式计算
【大数据计算引擎】流式计算引擎Flink3
【大数据计算引擎】流式计算引擎Flink
|
12月前
|
消息中间件 NoSQL 关系型数据库
【大数据计算引擎】流式计算引擎Flink2
【大数据计算引擎】流式计算引擎Flink
|
12月前
|
SQL 消息中间件 存储
【大数据计算引擎】流式计算引擎Flink1
【大数据计算引擎】流式计算引擎Flink
|
SQL 存储 消息中间件
Hive SQL on Flink 构建流批一体引擎
阿里巴巴开发工程师罗宇侠&方盛凯,在 Flink Forward Asia 2022 流批一体专场的分享。
18946 3
|
SQL 机器学习/深度学习 JSON
基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地
京东零售-技术研发与数据中心张颖&闫莉刚在 ApacheCon Asia 2022 的分享。
基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地