实时计算 Flink 版总体介绍|学习笔记

简介: 快速学习 实时计算 Flink 版总体介绍

开发者学堂课程【《实时数仓入门课程》实时计算 Flink 版总体介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13885


实时计算 Flink 版总体介绍


内容简介:

一、大数据计算正从“规模化”走向“实时化”

二、Apache Flink:从流开启的大数据实时计算引擎

三、实时计算 Flink 产品在阿里巴巴的发展历程

四、实时计算 Flink 版总体产品架构

五、实时计算 Flink 版的优势

六、实时计算 Flink 版-产品解决方案

七、实时计算 Flink 版标杆客户-百家全球知名企业


一、大数据计算正从“规模化”走向“实时化”

例如:淘宝在电商的交易下,实时化得根据用户的行为进行推荐。在前几十秒中浏览的商品,会在后续猜测你的兴趣,为你推荐你感兴趣的商品,等等。

 

二、Apache Flink:从流开启的大数据实时计算引擎

流式场景

事件驱动应用、流批分析、数据管道 &ETL

 

正确性保证

Exactly-once、事件时间处理、延迟事件处理

分层 API

流批一致的 SQL、DataSteam API、ProcessFunction、

(Time&State)

运维增强

灵活部署、高可用、运行快照

大规模计算

水平扩展架构、支持超大状态、增量检查点机制

性能卓越

低延迟、高吞吐、内存计算

 

三、实时计算 Flink 产品在阿里巴巴的发展历程

2016~2017

发源于搜索推荐

·阿里集团最核心业务场景

·双 11 实时推荐提升 GMV

·初露锋芒

2017~2018

开始服务全集团

·阿里集团实时数据业务

·双 11 GWV 大屏秒级更新

·集团内部平台化

2018~2019

公共云上线

·基于 Flink 的实时计算产品

·开始服务标杆客户

·阿里云对外产品化

2019~2020

收购 Flink 创始公司

·收购 Flink 创始公司 Ververica

·成为 Flink 社区最大推动者

·全球最强 Flink 团队会师

2020~2021

业界事实标准

·全球主流IT公司全面采用 Flink

·全球主流云厂商推出 Flink 产品

·Flink 成为实时计算领域事实标准

 

 

四、实时计算 Flink 版总体产品架构

平台

一站式企业级 Flink 开发运维平台

SQL/lava/Python 多语言开发,Job 全生命周期管理,OIDC&RBAC 企业级安全,AutoPilot智能调优,OpenAPI&SDK,Prometheus 全链路监控报警

引擎

企业级高性能 Flink 计算引擎

高性能状态存储引擎,SQL 算子深度优化,大规模调度优化,Checkpoint 无缝对接 OSS,Connector 无缝对接主流数据源,网络传输与流控优化,Apache Flink

底座

Cloud Native

Serverless,全托管,容器化

 

五、实时计算 Flink 版的优势

开发

1.数据连接:

·可与阿里云主流数据产品无缝集成,包括主流数据库,消息队列和日志服务等

·可按需自定义 Connector 对接各种外部存储系统

2. 任务开发:

·多语言支持:一站式开发管理平台,包括

SQL/Java/Scala/Python 语言

·元数据:内置统一元数据管理,并可无缝对接外部元数据系统(MySQL/Hive 等)

·函数库:内置多个领域函数库(比如Analytics Zoo cluster serving),并可按需自定义函数

3. 代码调试:

·测试数据管理:支持线上采样和 Mock 测试数据管理,方便构建测试流程

·快速运行测试:基于 Session 集群实现作业秒级启停,大幅提高作业测试效率

·开发生产隔离:开发测试过程不影响生产作业和数据。

 

运维

1. 监控告警:

·丰富的指标监控和维度聚合,便于作业延迟、数据倾斜、反压等问题排查

·通过钉钉、邮件、短信及时告警,并可对接企业内部统一告警系统(prometheus、graphite 等)

2. 智能诊断调优:

·智能诊断:及时发现作业问题并给出合理的该进建议

·智能调优:无人值守自动流控并调整作业资源分配,顺利度过业务流量洪峰

3. 细粒度资源:

支持算子级别的精细化资源配置(CPU/Mem),大规模作业资源利用率提高100%+

4. 高可用保障:

·原厂运维服务兜底,SLA99.9% 保证

·全链路自动容错能力,系统无单点

 

 

成本

1. 弹性扩缩容:

可根据业务负载智能扩缩容,保障业务时效性同时无资源浪费。

2. 付费类型:

用户可根据自身业务特点,选择包年包月或者按量付费。

3. 核心性能:

Nexmark 流计算标准测试性能是开源 Flink 的 3 倍。

 

安全

1. 空间隔离:

支持租户级和项目级的资源和代码隔离,满足跨团队协作需求。

2. 访问控制:

与阿里云账号体系打通,支持 OIDC 身份认证标准协议、支持基于角色的访问控制(RBAC)。

 

 

六、实时计算 Flink 版-产品解决方案

图片60.png

实时数仓

·PV/UV 统计

·商品销量统计

·交易数据统计

·..........

实时推荐

·短视频推荐

·资讯推荐

·商品推荐

·.......

实时 ETL

·数据库->数据库

·数据库->数仓

·日志->数仓

·.......

实时监控

·商业反作弊

·异常事件检测

·指标监控

·......

 

七、实时计算 Flink 版标杆客户-百家全球知名企业图片61.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
10月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
839 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
zdl
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
776 56
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
1041 0
Flink CDC 在阿里云实时计算Flink版的云上实践
|
SQL 存储 运维
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践
本次分享主要介绍阿里云实时计算平台从 2.0 基于 Yarn 的架构到 3.0 云原生时代的演进,以及在 3.0 平台上一些核心功能的建设实践,如健康分,智能诊断,细粒度资源,作业探查以及企业级安全的建设等。
如何降低 Flink 开发和运维成本?阿里云实时计算平台建设实践
|
SQL 存储 分布式计算
汽车之家基于 Flink 的实时计算平台 3.0 建设实践
汽车之家实时计算平台负责人邸星星在 FFA 2021 的分享
汽车之家基于 Flink 的实时计算平台 3.0 建设实践
|
存储 SQL 分布式计算
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践
464 0
|
存储 数据挖掘 Apache
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(2)
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(2)
521 0
|
SQL 存储 人工智能
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(3)
《Apache Flink 案例集(2022版)》——2.数据分析——汽车之家-Flink 的实时计算平台 3.0 建设实践(3)
500 0

热门文章

最新文章