Flink基础知识

简介: Flink快速上手 --链接:百度网盘 请输入提取码 提取码:1234Flink: 分布式、高性能框架,支持实时模式和批处理模式

一、Fink知识框架


97c530241d78010ea14bd59de46334bc.png



Flink快速上手 --链接:百度网盘 请输入提取码  提取码:1234


Flink: 分布式、高性能框架,支持实时模式和批处理模式


一、Apache Flink


作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎和Storm/Spark Streaming一样,定位于流式处理系统

区别:

– Storm:速度快,低延迟,吞吐能力低,无法保证精确一致性,必须独立集群 ,慢慢的就被抛弃了

– Spark Streaming:非实时,慢,吞吐高,依赖yarn资源利用率高 (微批处理 -》 准实时的效果)

并不能算是实时的处理引擎,也是批处理,只不过,每个批次很小,然后处理起来很快。让我们感觉有实时的效果。

– Flink:集成以上两种框架的优点,具备丰富的时间流式窗口概念

就是真正意义上的实时处理,真的会来一条数据,就处理一条数据。


二、 处理无界和有界数据


任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。

数据可以被作为 无界 或者 有界 流来处理。

无界流 有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。

有界流 有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理

Flink的组件栈有哪些?

       根据 Flink 官网描述,Flink 是一个分层架构的系统,每一层所包含的组件都提供了特定的抽象,用来服务于上层组件。

image.png



自下而上,每一层分别代表:


       1.Deploy 层:该层主要涉及了Flink的部署模式,在上图中我们可以看出,Flink 支持包括local、Standalone、Cluster、Cloud等多种部署模式 。

       2.Runtime 层: Runtime层提供了支持 Flink 计算的核心实现,比如:支持分布式 Stream 处理、JobGraph到ExecutionGraph的映射、调度等等,为上层API层提供基础服务 。

       3.API层:API 层主要实现了面向流(Stream)处理和批(Batch)处理API,其中面向流处理对应DataStream API,面向批处理对应DataSet API,后续版本,Flink有计划将DataStream和DataSet API进行统一 。

       4. Libraries层:该层称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);面向批处理支持:FlinkML(机器学习库)、Gelly(图处理)。

Flink集群有哪些角色?各自有什么作用?

5ea00a94e0057bbaac2cfa6544322e7e.png

2d6b7fe8a420aa179e75a221018aca3d.png


    Flink 程序在运行时主要有TaskManager,JobManager,Client三种角色。


JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者,负责接收Flink Job,协调检查点,Failover 故障恢复等,同时管理Flink集群中从节点TaskManager。

TaskManager是实际负责执行计算的Worker,在其上执行Flink Job的一组Task,每个TaskManager负责管理其所在节点上的资源信息,如内存、磁盘、网络,在启动的时候将资源的状态向JobManager汇报。

Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。


相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
目录
相关文章
|
canal 存储 SQL
MySQL数据库同步CDC方案调研
数据库同步是一个比较常见的需求,业务数据一般存储在一致性要求比较高的OLTP数据库中,在分析场景中往往需要OLAP数据库或者比较火的数据湖方案;CDC是数据库同步较为流行的方案,全称是Change Data Capture,主要用于捕捉数据库中变化的数据,然后根据变化的数据写入不同的目标存储。接下来是一些数据库CDC方案的调研及原理探讨,调研方案基于MySQL数据库。
3999 0
MySQL数据库同步CDC方案调研
|
3月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
406 0
|
3月前
|
人工智能 编解码 算法
《3D植被建模痛点解决:开放世界层级实例化+GPU批处理优化方案》
本文记录开放世界生存游戏“迷雾森林”场景3D植被建模的技术攻坚过程。初期因静态烘焙方案,出现近景纹理拉伸、中景阴影脱节、显存过载闪退等问题,后转向“动态层级实例化”,按空间、模型、材质三维度拆分植被资源,搭建层级参数库。面对实例化数量过载,通过材质分组批处理与GPU实例化优化,将Draw Call从3200次降至210次,帧率回升至58帧。后续开发动态环境响应模块,实现植被随天气调整形态,并优化地形采样算法解决穿模悬浮问题。最终沉淀“四维协同”建模逻辑,还探索AI辅助LOD生成,为开放世界3D资产开发提供可复用路径。
215 6
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
341 1
|
7月前
|
安全 Java API
银行转账p图在线生成, 虚拟转账生成器, 银行卡转账模拟器【娱乐装逼神器】
这是一套模拟银行核心业务逻辑的Java程序,包含账户管理、资金存取与转账、交易记录等功能。代码采用线程安全设计
|
9月前
|
数据采集 弹性计算 供应链
阿里云服务器包年包月、按量付费和抢占式实例有什么区别?如何选择?
阿里云服务器ECS提供三种付费类型:包年包月、按量付费和抢占式实例。包年包月适合长时间稳定使用,价格优惠且支持备案;按量付费为先用后付,按小时结算,适用于短期或突发需求,但费用较高;抢占式实例价格最低(可省90%),但可能因资源供需被释放,适合无状态应用如大数据分析、图像渲染等。选择时需根据业务场景权衡成本与稳定性,例如网站服务选包年包月,短期测试选按量付费,弹性伸缩业务可用抢占式实例。
268 4
|
10月前
|
存储 安全 索引
回收站删除的照片怎么恢复?
在日常使用电脑的过程中,我们常常会不小心误删照片、文件或者其他重要数据,尤其是在清空回收站后,许多人会感到恐慌,担心数据永远丢失。不过,实际上,即使回收站中的照片被删除,也并非完全没有恢复的可能。本文将详细介绍几种常用的照片恢复方法,帮助大家在遇到类似问题时能够及时采取措施,尽可能地找回丢失的数据。
|
11月前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
327 3
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
385 19