Flink 引擎-阿里云开发者社区

Flink 引擎

2022-09-14 209

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： Flink 引擎

💨Flink诞生的背景

什么是大数据？

🚩大数据指在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

🎈大数据的计算架构经过几个发展阶段后到了Flink引擎这里已经可以实现流计算、实时、更快、流批一体还支持SQL

什么是流式计算又为什么需要？

🚩在日常生活中，我们通常会把数据存储在一张表中，然后再进行加工、分析，这里就涉及到一个 时效性的问题。如果我们处理以年、月为单位的级别的数据，那么数据的时效性要求并不高；但如果我们处理的是以天、小时，甚至分钟为单位的数据，那么对数据的时效性要求就比较高。在第二种场景下，如果我们仍旧采用传统的数据处理方式，统一收集数据，存储到数据库中，之后在进行分析，就可能无法满足时效性的要求。 🚩而流式计算，顾名思义，就是对数据流进行处理，是实时计算。

💨详谈Flink

Flink的优点

🚩计算模式（Streaming Model):Native🚩一致性保证：Exactly-Once🚩延迟：低（毫秒级）🚩吞吐：High🚩容错：Checkpoint🚩状态（StateFul）:Yes（Operator）🚩SQL支持：Yes

🎈Apache Flink是一个框架和分布式处理引擎，用于在无界和有界数据流上进行有状态计算。Flink被设计为可以在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

Flink分层架构

图片.png

🚩最上面是SDK层，就是Flink给用户提供的SDK，目前主要有三类， SQL/Table、DataStream、Python；
🚩执行引擎层（Runtime层）：执行引擎层提供了统一的DAG，用来描述数据处理的Pipeline，不管是流还是批，都会转化为DAG图，调度层再把DAG转化成分布式环境下的Task，Task之间通过Shuffle传输数据；🚩状态存储层：负责存储算子的状态信息；🚩资源调度层：目前Flink可以支持部署在多种环境。

Flink总体架构

图片.png

🎈一个Flink集群，主要包含两个核心组件：

🚩 JobManager（JM）：负责整个任务的协调工作，包括：调度task、触发协调Task做Checkpoint、协调容错恢复等；🚩 TaskManager（TM）：负责执行一个DataFlow Graph的各个task以及data streams的buffer和数据交换。

🎈JM的职责

JM分成三个小部件

🚩Dispatcher：接收作业，拉起 JM来执行作业，并在JobMaster挂掉之后恢复作业；🚩JobMaster:管理一个job的整个生命周期，会向ResourceManager申请slot，并将task调度到对应 TM上；🚩ResourceManager:负责slot资源的管理和调度， TM拉起后会向RM注册；

Flink如何做到流批一体

🎈为什么需要流批一体？✔比如在抖音中，我们需要实时地获取一个短视频的播放量，点赞数，评论数，当然也包括抖音直播间的实时观看人数等。而流批一体可以帮助我们减少资源消耗、降低架构复杂性、提升价值产出效率

✨Flink主要从一下几个模块来做流批一体

🚩SQL层；🚩DataStream API层同意，批和流都可以使用DataStream来开发；🚩Scheduler层架构统一，支持流批场景；🚩Failover Recovery层架构统一，支持流批场景；🚩Shuffle Service层架构统一，流批场景选择不同的Shuffle Service；🍳在流处理引擎之上，Flink 有以下机制：检查点机制和状态机制：用于实现容错、有状态的处理；水印机制：用于实现事件时钟；窗口和触发器：用于限制计算范围，并定义呈现结果的时间。 🍳在同一个流处理引擎之上，Flink 还存在另一套机制，用于实现高效的批处理。用于调度和恢复的回溯法：由 Microsoft Dryad 引入，现在几乎用于所有批处理器；用于散列和排序的特殊内存数据结构：可以在需要时，将一部分数据从内存溢出到硬盘上；优化器：尽可能地缩短生成结果的时间。

Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。
批处理的特点是有界、持久、大量，批处理非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。
流处理的特点是无界、实时，流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。

Flink 引擎