💨Flink诞生的背景
什么是大数据?
🚩大数据指在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
🎈大数据的计算架构经过几个发展阶段后到了Flink引擎这里已经可以实现流计算、实时、更快、流批一体还支持SQL
什么是流式计算又为什么需要?
🚩在日常生活中,我们通常会把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个 时效性的问题。如果我们处理以年、月为单位的级别的数据,那么数据的时效性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。 🚩而流式计算,顾名思义,就是对数据流进行处理,是实时计算。
💨详谈Flink
Flink的优点
🚩计算模式(Streaming Model):Native🚩一致性保证:Exactly-Once🚩延迟:低(毫秒级)🚩吞吐:High🚩容错:Checkpoint🚩状态(StateFul):Yes(Operator)🚩SQL支持:Yes
🎈Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。
Flink分层架构
🚩最上面是SDK层,就是Flink给用户提供的SDK,目前主要有三类, SQL/Table、DataStream、Python;
🚩执行引擎层(Runtime层):执行引擎层提供了统一的DAG,用来描述数据处理的Pipeline,不管是流还是批,都会转化为DAG图,调度层再把DAG转化成分布式环境下的Task,Task之间通过Shuffle传输数据;🚩状态存储层:负责存储算子的状态信息;🚩资源调度层:目前Flink可以支持部署在多种环境。
Flink总体架构
🎈一个Flink集群,主要包含两个核心组件:
🚩 JobManager(JM):负责整个任务的协调工作,包括:调度task、触发协调Task做Checkpoint、协调容错恢复等;🚩 TaskManager(TM):负责执行一个DataFlow Graph的各个task以及data streams的buffer和数据交换。
🎈JM的职责
JM分成三个小部件
🚩Dispatcher:接收作业,拉起 JM来执行作业,并在JobMaster挂掉之后恢复作业;🚩JobMaster:管理一个job的整个生命周期,会向ResourceManager申请slot,并将task调度到对应 TM上;🚩ResourceManager:负责slot资源的管理和调度, TM拉起后会向RM注册;
Flink如何做到流批一体
🎈为什么需要流批一体?✔比如在抖音中,我们需要实时地获取一个短视频的播放量,点赞数,评论数,当然也包括抖音直播间的实时观看人数等。而流批一体可以帮助我们减少资源消耗、降低 架构复杂性、提升价值产出效率
✨Flink主要从一下几个模块来做流批一体
🚩SQL层;🚩DataStream API层同意,批和流都可以使用DataStream来开发;🚩Scheduler层架构统一,支持流批场景;🚩Failover Recovery层架构统一,支持流批场景;🚩Shuffle Service层架构统一,流批场景选择不同的Shuffle Service;🍳在流处理引擎之上,Flink 有以下机制: 检查点机制和状态机制:用于实现容错、有状态的处理; 水印机制:用于实现事件时钟; 窗口和触发器:用于限制计算范围,并定义呈现结果的时间。 🍳在同一个流处理引擎之上,Flink 还存在另一套机制,用于实现高效的批处理。 用于调度和恢复的回溯法:由 Microsoft Dryad 引入,现在几乎用于所有批处理器; 用于散列和排序的特殊内存数据结构:可以在需要时,将一部分数据从内存溢出到硬盘上; 优化器:尽可能地缩短生成结果的时间。
- Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。
- 批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。
- 流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。