实时计算 Flink 版总体介绍|学习笔记

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 实时计算 Flink 版总体介绍

开发者学堂课程【《实时数仓入门课程》实时计算 Flink 版总体介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/807/detail/13885


实时计算 Flink 版总体介绍


内容简介:

一、大数据计算正从“规模化”走向“实时化”

二、Apache Flink:从流开启的大数据实时计算引擎

三、实时计算 Flink 产品在阿里巴巴的发展历程

四、实时计算 Flink 版总体产品架构

五、实时计算 Flink 版的优势

六、实时计算 Flink 版-产品解决方案

七、实时计算 Flink 版标杆客户-百家全球知名企业


一、大数据计算正从“规模化”走向“实时化”

例如:淘宝在电商的交易下,实时化得根据用户的行为进行推荐。在前几十秒中浏览的商品,会在后续猜测你的兴趣,为你推荐你感兴趣的商品,等等。

 

二、Apache Flink:从流开启的大数据实时计算引擎

流式场景

事件驱动应用、流批分析、数据管道 &ETL

 

正确性保证

Exactly-once、事件时间处理、延迟事件处理

分层 API

流批一致的 SQL、DataSteam API、ProcessFunction、

(Time&State)

运维增强

灵活部署、高可用、运行快照

大规模计算

水平扩展架构、支持超大状态、增量检查点机制

性能卓越

低延迟、高吞吐、内存计算

 

三、实时计算 Flink 产品在阿里巴巴的发展历程

2016~2017

发源于搜索推荐

·阿里集团最核心业务场景

·双 11 实时推荐提升 GMV

·初露锋芒

2017~2018

开始服务全集团

·阿里集团实时数据业务

·双 11 GWV 大屏秒级更新

·集团内部平台化

2018~2019

公共云上线

·基于 Flink 的实时计算产品

·开始服务标杆客户

·阿里云对外产品化

2019~2020

收购 Flink 创始公司

·收购 Flink 创始公司 Ververica

·成为 Flink 社区最大推动者

·全球最强 Flink 团队会师

2020~2021

业界事实标准

·全球主流IT公司全面采用 Flink

·全球主流云厂商推出 Flink 产品

·Flink 成为实时计算领域事实标准

 

 

四、实时计算 Flink 版总体产品架构

平台

一站式企业级 Flink 开发运维平台

SQL/lava/Python 多语言开发,Job 全生命周期管理,OIDC&RBAC 企业级安全,AutoPilot智能调优,OpenAPI&SDK,Prometheus 全链路监控报警

引擎

企业级高性能 Flink 计算引擎

高性能状态存储引擎,SQL 算子深度优化,大规模调度优化,Checkpoint 无缝对接 OSS,Connector 无缝对接主流数据源,网络传输与流控优化,Apache Flink

底座

Cloud Native

Serverless,全托管,容器化

 

五、实时计算 Flink 版的优势

开发

1.数据连接:

·可与阿里云主流数据产品无缝集成,包括主流数据库,消息队列和日志服务等

·可按需自定义 Connector 对接各种外部存储系统

2. 任务开发:

·多语言支持:一站式开发管理平台,包括

SQL/Java/Scala/Python 语言

·元数据:内置统一元数据管理,并可无缝对接外部元数据系统(MySQL/Hive 等)

·函数库:内置多个领域函数库(比如Analytics Zoo cluster serving),并可按需自定义函数

3. 代码调试:

·测试数据管理:支持线上采样和 Mock 测试数据管理,方便构建测试流程

·快速运行测试:基于 Session 集群实现作业秒级启停,大幅提高作业测试效率

·开发生产隔离:开发测试过程不影响生产作业和数据。

 

运维

1. 监控告警:

·丰富的指标监控和维度聚合,便于作业延迟、数据倾斜、反压等问题排查

·通过钉钉、邮件、短信及时告警,并可对接企业内部统一告警系统(prometheus、graphite 等)

2. 智能诊断调优:

·智能诊断:及时发现作业问题并给出合理的该进建议

·智能调优:无人值守自动流控并调整作业资源分配,顺利度过业务流量洪峰

3. 细粒度资源:

支持算子级别的精细化资源配置(CPU/Mem),大规模作业资源利用率提高100%+

4. 高可用保障:

·原厂运维服务兜底,SLA99.9% 保证

·全链路自动容错能力,系统无单点

 

 

成本

1. 弹性扩缩容:

可根据业务负载智能扩缩容,保障业务时效性同时无资源浪费。

2. 付费类型:

用户可根据自身业务特点,选择包年包月或者按量付费。

3. 核心性能:

Nexmark 流计算标准测试性能是开源 Flink 的 3 倍。

 

安全

1. 空间隔离:

支持租户级和项目级的资源和代码隔离,满足跨团队协作需求。

2. 访问控制:

与阿里云账号体系打通,支持 OIDC 身份认证标准协议、支持基于角色的访问控制(RBAC)。

 

 

六、实时计算 Flink 版-产品解决方案

图片60.png

实时数仓

·PV/UV 统计

·商品销量统计

·交易数据统计

·..........

实时推荐

·短视频推荐

·资讯推荐

·商品推荐

·.......

实时 ETL

·数据库->数据库

·数据库->数仓

·日志->数仓

·.......

实时监控

·商业反作弊

·异常事件检测

·指标监控

·......

 

七、实时计算 Flink 版标杆客户-百家全球知名企业图片61.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
4月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
494 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
zdl
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
546 56
|
11月前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
684 0
Flink CDC 在阿里云实时计算Flink版的云上实践
|
12月前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
1483 7
阿里云实时计算Flink在多行业的应用和实践
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
3633 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
SQL 消息中间件 Kafka
实时计算 Flink版产品使用问题之如何在EMR-Flink的Flink SOL中针对source表单独设置并行度
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
人工智能 Apache 流计算
Flink Forward Asia 2024 上海站|探索实时计算新边界
Flink Forward Asia 2024 即将盛大开幕!11 月 29 至 30 日在上海举行,大会聚焦 Apache Flink 技术演进与未来规划,涵盖流式湖仓、流批一体、Data+AI 融合等前沿话题,提供近百场专业演讲。立即报名,共襄盛举!官网:https://asia.flink-forward.org/shanghai-2024/
1315 33
Flink Forward Asia 2024 上海站|探索实时计算新边界

热门文章

最新文章