Flink on Zeppelin 流计算处理最佳实践

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247106

开源大数据社区 & 阿里云 EMR 系列直播 第十二期


主题:Flink on Zeppelin 流计算处理最佳实践


讲师:简锋,阿里云 EMR 数据开发平台 负责人


内容框架:

  • 大数据概览
  • Flink 学习框架
  • EMR Studio 上的流计算最佳实践
  • 演示


直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247106



一、大数据概览

  • 大数据处理 ETL (Data  → Data)
  • 大数据分析 BI   (Data  →  Dashboard)
  • 机器学习    AI   (Data  →  Model)

image.png

二、Flink 学习框架

Flink 要点

  • Stateful
  • Time
  • Flink Architecture
  • Flink API
  • Flink Configuration
  • Flink Log

Stateful:

  • Why

 • 流计算的及时性

 • 流计算的 unbounded

  • When

 • Window

 • Join

 • Pattern

  • How

 • statebackend

Time

  • Event time
  • Processing time
  • Watermark

Flink Architecture

image.png

Flink API

image.png


Flink Configuration

  • Cluster Configuration
  • Job Configuration
  • Statebackend
  • Resource Manager
  • SQL/Python


参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/

Flink Log

image.png

三、EMR Studio 上的流计算最佳实践

EMR Studio 特性:

  • 兼容开源组件
    EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

image.png

  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

Flink Clients

image.png

Flink on Zeppelin (Phase 1) - Interactive Flink Client

image.png

Flink on Zeppelin (Phase 2) - Interactive JobManager

image.png

Flinkon Zeppelin 主要 Feature

image.png

四、演示


具体产品介绍和演示,可以扫描文章底部钉钉群二维码,进群观看直播回放哦!

也可以点击以下链接直接观看回放:

https://developer.aliyun.com/live/247106






后续我们会在钉钉群定期推送精彩案例,邀请更多技术大牛直播分享。欢迎有兴趣的同学扫下方二维码加入钉钉群进行交流和技术分享。关注公众号,锁定每周精彩分享内容!

459e3ae840724dabb2499b3990cac9b4.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1164 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
2月前
|
运维 监控 安全
选择主题1:实时计算Flink版最佳实践测评
本文介绍了使用实时计算Flink版进行用户行为分析的实践,涵盖用户行为趋势、留存分析、用户画像构建及异常检测等方面。与自建Flink集群相比,实时计算Flink版在稳定性、性能、开发运维和安全能力上表现更优,且显著降低了企业的IT支出和运维成本,提升了业务决策效率和系统可靠性,是企业级应用的理想选择。
84 32
|
2月前
|
运维 监控 安全
实时计算 Flink 版最佳实践测评
本文介绍了结合电商平台用户行为数据的实时计算Flink版实践,涵盖用户行为分析、标签画像构建、业务指标监控和数据分析预测等场景。文章还对比了实时计算Flink版与其他引擎及自建Flink集群在稳定性、性能、开发运维和安全能力方面的差异,分析了其成本与收益。最后,文章评估了实时计算Flink版的产品内引导、文档帮助、功能满足情况,并提出了针对不同业务场景的改进建议和与其他产品的联动可能性。
69 2
|
3月前
|
SQL 运维 监控
实时计算Flink版最佳实践测评报告
本报告旨在评估阿里云实时计算Flink版在实际应用中的表现,通过一系列的测试和分析来探讨其在稳定性、性能、开发运维及安全性方面的优势。同时,我们将结合具体的业务场景,如用户行为分析、标签画像构建等,来说明其实时数据处理能力,并对比自建Flink集群以及其他实时计算引擎。最后,从成本效益的角度出发,讨论采用全托管服务对企业运营的影响。
74 13
|
2月前
|
消息中间件 运维 分布式计算
实时计算Flink版最佳实践测评
本文介绍了使用阿里云实时计算Flink版进行用户行为分析的实践,详细探讨了其在性能、稳定性和成本方面的优势,以及与自建Flink集群的对比。通过实时计算,能够快速发现用户行为模式,优化产品功能,提升用户体验和市场竞争力。文章还提到了产品的易用性、功能满足度及改进建议,并与其他Flink实时计算产品进行了对比,强调了Flink在实时处理方面的优势。
|
3月前
|
存储 运维 监控
实时计算Flink版最佳实践测评
实时计算Flink版最佳实践测评
108 1
|
7月前
|
SQL 存储 数据库
Flink + Paimon 数据 CDC 入湖最佳实践
Flink + Paimon 数据 CDC 入湖最佳实践
1473 59
|
4月前
|
调度 流计算
Flink 新一代流计算和容错问题之Flink 中的数据可以分为什么类型
Flink 新一代流计算和容错问题之Flink 中的数据可以分为什么类型
|
4月前
|
Cloud Native 安全 调度
Flink 新一代流计算和容错问题之Flink 通过云原生技术改进容错设计要如何操作
Flink 新一代流计算和容错问题之Flink 通过云原生技术改进容错设计要如何操作
|
4月前
|
运维 Cloud Native 数据库
Flink 新一代流计算和容错问题之将 Flink 的容错与云原生的弹性扩缩容相结合要怎么操作
Flink 新一代流计算和容错问题之将 Flink 的容错与云原生的弹性扩缩容相结合要怎么操作
下一篇
DataWorks