环境篇之 flink 简介|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习环境篇之 flink 简介

开发者学堂课程【大数据 Flink 实时旅游平台环境篇 2020版:环境篇之 flink 简介】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/643/detail/10707


环境篇之 flink 简介


内容介绍:

一、flink 部署

二、sandalone cluser HA 部署


一、flink 部署

flink 的部署分为以下四步:

1、 flink 的安装包解压

2、 flink 的核心文件配置

3、分发到其它服务器

4、测试flink集群


二、sandalone cluser HA 部署

Apache Flink- 数据流上的有状态计算

有状态例如之前内容中窗口的一些进入值

如下是官网对 flink 的一个简介图,可以分为三部分,左侧是数据源,中间是 flink 的分析引擎,右侧是结果存储。

image.png

在数据源中分为 Transactions 数据、日志数据、IOT 数据、Clicks 点击数据等

右侧 Real-time Events 是实时事件,针对操作等,称为事件

支持文件系统、数据库、pv 存储等

这两大类数据交给中间的 flink,flink 可以做事件驱动的应用、管道流、Stream 和Batch 的分析,这三个是 flink 的典型应用场景

下面 Resources|Storage  

(K8s,Yarn,Mesos,...)|(HDFS,S3,NFS,...)

左侧是 flink 可以自己管理的资源框架,其中更多用到 Yarn 模式;右侧是数据的存储

第三部分接收管道流传入的数据,进行结果的存储

下图介绍到了一些相关内容,例如

所有流式场景:事件驱动应用、流批分析、数据管道 &ETL,可以点击了解更多在官网了解

正确性保证:Exactly-once 状态一致性、事件事件处理、成熟的迟到数据处理

分层 API:SQL on Stream & Batch Data、DataStream API & DataSet API、ProcessFunction(Time & State)

聚焦运维:灵活部署、高可用、保存点

大规模计算:水平扩展架构、支持超大状态、增量检查点机制

性能卓越:低延迟、高吞吐、内存计算

下图对 flink 的安装部署做简单介绍,首先 flink 支持 local 模式,直接解压就可以使用。

更多参与的是集群与部署:有独立集群、有 YARN、Mesos、Docker、Kubernetes、Native Kubernetes、Hadoop 集成几种模式。常见的是独立集群和 YARN,如果规模小使用独立集群就可以。

这些集群部署不是最优的,通常一个集群部署容易引起单点故障

单个 Jobmanager 容易引起 SPOF,也即是单点故障。所以通常使用高可用(HA)的部署模式,HA 具体什么样子如下图,有一个时间轴:t0时刻、t1时刻、t2时刻、t3时刻

右侧以三排服务器为讲解,第一排服务器 JobManager 是 leader,相当于在激活状态下,二和三是 Standby,相当于处在待命状态。即三个服务器都是一样角色,但是Leader 能够提供服务,Standby 提供实时的同步状态,当 leader 不能使用时,剩下的两个 Standby 中会选出一个 leader

t1时刻,1显示 CRASH,然后在2和3中选出一个 Leader,可以看到在 t2 时刻,leader 选举出来,1显示正在恢复 Recovering。之后在 t3 时刻,1显示成为Standby。

image.png

可以将 t0、t1、t2、t3 时刻之间的间隙缩小,无限缩小就会使我们感觉不到切换,该服务仍然是可用的。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
Oracle 关系型数据库 流计算
flink cdc 同步oracle idea启动可以全量同步,服务器环境不同步。standalone模式
flink cdc 同步oracle idea启动可以全量同步,服务器环境不同步。standalone模式
|
17天前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
44 9
|
6月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之环境只能拿到全量数据,无法获取增量数据,是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
SQL API 流计算
实时计算 Flink版产品使用合集之在Mac M1下的Docker环境中开启SQL Server代理的操作步骤是什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
253 1
|
6月前
|
消息中间件 SQL Kubernetes
实时计算 Flink版产品使用合集之多线程环境中,遇到 env.addSource 添加数据源后没有执行到 env.execut,是为什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之在oracle cdc2.3 + flink1.7环境下只能初始化同步数据,但后续Oracle的增删改查无法同步出去,是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
传感器 存储 缓存
[尚硅谷flink学习笔记] 实战案例TopN 问题
这段内容是关于如何使用Apache Flink解决实时统计水位传感器数据中,在一定时间窗口内出现次数最多的水位问题,即"Top N"问题。首先,介绍了一个使用滑动窗口的简单实现,通过收集传感器数据,按照水位计数,然后排序并输出前两名。接着,提出了全窗口和优化方案,其中优化包括按键分区(按水位vc分组)、开窗操作(增量聚合计算count)和过程函数处理(聚合并排序输出Top N结果)。最后,给出了一个使用`KeyedProcessFunction`进行优化的示例代码,通过按键by窗口结束时间,确保每个窗口的所有数据到达后再进行处理,提高了效率。
184 1
|
6月前
|
消息中间件 Kafka 流计算
如果有多个版本的Flink CDC在同一环境中运行,可能会导致Debezium版本冲突
【2月更文挑战第30天】如果有多个版本的Flink CDC在同一环境中运行,可能会导致Debezium版本冲突
79 2
|
6月前
|
分布式计算 API 数据处理
Flink【基础知识 01】(简介+核心架构+分层API+集群架构+应用场景+特点优势)(一篇即可大概了解flink)
【2月更文挑战第15天】Flink【基础知识 01】(简介+核心架构+分层API+集群架构+应用场景+特点优势)(一篇即可大概了解flink)
170 1
|
6月前
|
分布式计算 资源调度 Hadoop
Hadoop学习笔记(HDP)-Part.18 安装Flink
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
244 2
Hadoop学习笔记(HDP)-Part.18 安装Flink
下一篇
无影云桌面