流处理开源框架Flink原理简介和使用（2）-阿里云开发者社区

流处理开源框架Flink原理简介和使用（2）

2022-04-25 275

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

简介： 流处理开源框架Flink原理简介和使用（2）

Flink特点

事件驱动型(Event-driven)

事件驱动型应用是一类具有状态的应用 他从一个或多个事件流提取数据  
并根据到来的事件触发计算、状态更新或其他的外部动作

以kafka为代表的消息队列几乎都是事件驱动型应用

无界数据流：
有一个开始但没有结束 不会在生成时终止并提供数据
必须连续处理无界流即必须在获取后立即处理
对于无界流无法等待所有数据都到达
因为输入是无界的 并且在任何时间点都不会完成 
处理无界数据通常要求以特定顺序（例如事件发生的顺序）获取event
以便能够推断结果完整性

有界数据流：
有明确的开始和结束
可以在执行任何计算之前通过获取所有数据来处理有界流
处理有界流不需要有序获取
因为可以始终对有界数据集进行排序
有界流的处理也被成为批处理

分层API

越顶层越抽象表达含义越简明使用越方便

越底层越具体表达能力越丰富使用越灵活

flink其他特点

支持事件时间（event-time）和处理时间(processing-time)

状态一致性

低延迟每秒处理数百万毫秒级延迟

众多常用存储系统连接

高可用动态扩展

Flink和Spark Streaming比较

流(stream)和微批(micro-batching)

流处理
无界、实时无需针对整个数据集执行操作而是对通过系统传输的每个数据项执行操作一般用于实时统计

批处理
有界、持久、大量非常适合访问全套记录才能完成计算工作一般用于离线统计

数据模型

spark采用RDD模型 spark streaming的Dstream实际上也就是一组组小批数据RDD的集合在spark的数据观一切都是由批次组成离线数据是一个大批次而实时数据是由一个一个无限的小批次组成

flink基本数据模型是数据流以及事件(event)序列

运行时架构

spark是批计算将DAG划分为不同的stage 一个完成后才能计算下一个

flink是标准的流执行模式一个事件在一个节点处理完之后可以直接发往下一个节点进行处理

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

流处理开源框架Flink原理简介和使用（2）

Flink特点

分层API

flink其他特点

Flink和Spark Streaming比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

流处理开源框架Flink原理简介和使用（2）

Flink特点

分层API

flink其他特点

Flink和Spark Streaming比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景