流处理开源框架Flink原理简介和使用(2)

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 流处理开源框架Flink原理简介和使用(2)

Flink特点



  • 事件驱动型(Event-driven)


事件驱动型应用是一类具有状态的应用 他从一个或多个事件流提取数据  
并根据到来的事件触发计算、状态更新或其他的外部动作



以kafka为代表的消息队列几乎都是事件驱动型应用


image.png


无界数据流:
有一个开始但没有结束 不会在生成时终止并提供数据
必须连续处理无界流即必须在获取后立即处理
对于无界流无法等待所有数据都到达
因为输入是无界的 并且在任何时间点都不会完成 
处理无界数据通常要求以特定顺序(例如事件发生的顺序)获取event
以便能够推断结果完整性


有界数据流:
有明确的开始和结束
可以在执行任何计算之前通过获取所有数据来处理有界流
处理有界流不需要有序获取
因为可以始终对有界数据集进行排序
有界流的处理也被成为批处理


分层API


  • 越顶层越抽象 表达含义越简明 使用越方便


  • 越底层越具体 表达能力越丰富 使用越灵活


image.png


flink其他特点


  • 支持事件时间(event-time)和处理时间(processing-time)


  • 状态一致性


  • 低延迟 每秒处理数百万 毫秒级延迟


  • 众多常用存储系统连接


  • 高可用 动态扩展


Flink和Spark Streaming比较


  • 流(stream)和微批(micro-batching)


  • 流处理
    无界、实时 无需针对整个数据集执行操作 而是对通过系统传输的每个数据项执行操作 一般用于实时统计


  • 批处理
    有界、持久、大量 非常适合访问全套记录才能完成计算工作 一般用于离线统计



image.png


  • 数据模型


  • spark采用RDD模型 spark streaming的Dstream实际上也就是一组组小批数据RDD的集合 在spark的数据观 一切都是由批次组成 离线数据是一个大批次 而实时数据是由一个一个无限的小批次组成


  • flink基本数据模型是数据流以及事件(event)序列


  • 运行时架构


  • spark是批计算 将DAG划分为不同的stage 一个完成后才能计算下一个


  • flink是标准的流执行模式 一个事件在一个节点处理完之后可以直接发往下一个节点进行处理
相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
3月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
754 43
|
3月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
272 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
3月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
407 0
|
27天前
|
存储 消息中间件 人工智能
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
本文根据 2025 云栖大会演讲整理而成,演讲信息如下 演讲人:黄鹏程 阿里云智能集团计算平台事业部实时计算Flink版产品负责人
143 1
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
|
11月前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
439 16
|
分布式计算 大数据 流计算
基于Flink流处理的动态实时电商实时分析系统
Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。
2449 0
|
3月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
460 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄

热门文章

最新文章