Flink 实战:如何解决应用中的技术难题?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。 Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。

倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。

Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。本文将详细介绍4月25日下午半场直播议程。

4/25 Flink Forward 直播下午场亮点

1. Keynote:您可了解 Cloudera 集成 Flink 的最新进展。
2. 实践系列:将分享 Uber Flink CEP 的应用实践、Netflix 的自动扩缩容、滴滴 StreamSQL 的大规模应用、最差实践的反面教材有哪些。
3. 社区生态:介绍 PyFlink + Zeppelin 的上手应用、如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。
4. Flink SQL:将进行 Flink SQL 的深度解析及 2020 的最新动向分享。

■ Talk 1

圆桌 | Keynote: Apache Flink - Completing Cloudera’s End to End Streaming Platform

今年 1 月,Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

如今,集成 Flink 的 Cloudera Data Platform 有何表现,本次 Flink Forward,来自 Cloudera 的技术专家们将分享其端到端的流处理平台详细功能及技术细节。

分享嘉宾:

  • Marton Balassi,Apache Flink PMC,流 API 的第一批贡献者之一。
  • Joe Witt,Cloudera 工程部副总裁,专注于 Cloudera Data Flow(CDF)产品。

解说嘉宾:

杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 2

圆桌 | Flink SQL 之 2020:舍我其谁

四年前,Apache Flink 社区开始添加 SQL 支持,以简化和统一静态和流式数据的处理。如今,Flink 在阿里巴巴、华为、Lyft、Uber、Yelp 和其他许多公司运行业务关键的批处理和流式 SQL 查询。尽管社区在过去几年取得了重大进展,但发展蓝图上仍有更远大的目标,我们也在加快开发进度。

在过去的几个月里,社区添加了一些重要的改进和扩展,包括对 DDL 的支持、类型系统和 Catalog 接口的重构,以及 Apache Hive 的集成。出于跟进 Flink SQL 及其生态系统所做的所有开发工作的考虑,本次会议将以一个系统的完整的示例重点介绍 2020 年 Flink SQL。基于实际的用例场景,我们将展示:

  • 如何定义由各种存储系统支持的表
  • 如何使用流式 SQL 查询解决常见问题
  • 演示 Flink 与 Hive 的集成
  • 演示如何定义和使用用户定义的函数

并且,我们将分享即将推出的功能和未来展望。

分享嘉宾:

  • Fabian Hueske,Apache Flink PMC。
  • Timo Walther,Apache Flink PMC。

解说嘉宾:

伍翀(云邪),Apache Flink PMC,阿里巴巴技术专家。

■ Talk 3

圆桌 | Apache Flink 误用之痛

分布式流处理正从一种在大数据边缘的技术演变为一种关键的、赋能企业为其客户提供高可扩展的实时服务的技术。Apache Flink 商业母公司 Ververica 以及 Flink 社区中的其他用户都见证了这一发展。在与我们的用户以及更广泛的社区合作中,我们看到了一些比较成功的案例,同时也看到了一些问题。

在本次演讲中,我将分享一些采用分布式流处理的趣闻轶事和经验教训,包括 Apache Flink 特有的以及跨框架的。通过本次分享,您将了解如何消除故障的发生,如何做到无忧无虑的看大屏。

分享嘉宾:Konstantin Knauf,Ververica Platform 产品负责人。

解说嘉宾:孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 4

圆桌 | Netflix 的 Flink 自动扩缩容

Keystone 数据管道管理数千个 Flink 管道,工作负载可变。这些管道是简单的数据路由,从 Kafka 读取并写入三个接收器之一。为了减少操作开销,我们为这些路由程序实现了自动扩缩容。

自动扩缩容将我们的资源使用量减少了25%-45%(因地区和时间而异),极大减轻了负担。本次 talk 将深入探讨实现大规模简单管道自动扩缩容的数学、算法和基础设施细节并讨论自动扩缩容复杂管道的未来工作。

分享嘉宾:Timothy Farkas,Netflix 软件工程师。

解说嘉宾:吕文龙(龙三),阿里巴巴技术专家。

■ Talk 5

圆桌 | Uber :使用 Flink CEP 进行地理情形检测的实践

Uber 在复杂的物理世界中运作,其提供可靠服务的挑战之一是实时检测地理定位和动态的场景,例如空间热点,需求/供应不平衡的街道等。由于 Uber 的全球规模庞大,街道和交通拥堵,因此这个问题很难解决。

为了解决这个问题,Uber 工程师建立了由 Apache Flink 和 CEP 库提供支持的地理空间状况检测平台。在本次演讲中,Uber 的工程师将介绍如何利用 Apache Flink,并通过 CEP 模式匹配来推导地理空间语义以及在平台搭建和采用的各种技术所涉及的挑战。

分享嘉宾:Teng (Niel) Hu,Uber 软件工程师。

解说嘉宾:付典,Apache Flink Committer,阿里巴巴技术专家。

■ Talk 6

演讲 | A deep dive into Flink SQL

在过去的两个大版本中(1.9 和 1.10),Apache Flink 社区花了很大的精力去改造架构,让架构更加地流批统一。一个例子就是 Flink SQL 提供了在一套 API 下,多 SQL planner 的支持。本演讲将首先讨论这些举动背后的动机,然后会深入 Flink SQL 介绍其内部的一些运行机制。

本次演讲会介绍流批统一的架构,以及 Flink 如何将查询翻译成关系表达式,并利用 Calcite 优化他们,继而生成高效的运行时代码。除此之外,还会详细地介绍查询的生命周期,常见的一些优化是如何工作的,Flink 如何利用二进制数据格式作为基础数据结构,以及某些特定算子是如何工作的。这将给听众带来对 Flink SQL 内部机制更好的理解。

分享嘉宾:

  • 杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 伍翀(云邪)Apache Flink PMC,阿里巴巴技术专家。

■ Talk 7

演讲 | Flink's application at Didi

滴滴有着丰富的实时计算场景,Flink 已经广泛应用于实时监控、数据通道、特征提取、实时数仓、在线业务等领域,我们还基于 Flink Table API 打造了 StreamSQL 产品,结合一站式开发平台,降低了用户使用成本,目前 StreamSQL 覆盖率已超过 80%。目前,滴滴的实时计算任务已达 7000+,每日处理数据量超过 2 万亿。

分享嘉宾:薛康,现任滴滴技术专家,实时计算负责人。毕业于浙江大学,曾任百度高级研发工程师,对大数据生态建设有丰富经验。

■ Talk 8

演讲 | 终于等到你:PyFlink + Zeppelin

Flink 在其统一批处理和流处理的核心引擎方面取得了巨大的进展,但是用户入门的门槛仍然很高,比如对于只熟悉 Python 和 SQL 的数据分析师和数据科学家,入门尤为困难。多年来,用户要求在 Apache Flink 中提供内置且完善的 Python 支持,以便能够使用他们熟悉的编程语言的同时利用 Flink 的独特功能。

Apache Flink 的 1.9 版本添加了 Python Table API(也称为 PyFlink);并且在 1.10 中增加了对原生 Python UDF(基于 Apache Beam 的可移植性框架)的支持。后续,我们还会不断完善 PyFlink。下一个版本里我们将会支持定义 Python 的机器学习处理流程,它将使用户能够完全在 PyFlink 中实现复杂的机器学习应用程序。除此之外,我们还集成了 Flink 和 Zeppelin notebook,并且重新设计了 Zeppelin 中过时的 Flink 解释器,使其适合以下 3 种主要的 Flink 场景:

通过 Flink 批处理 SQL+UDF+Zeppelin 的内置可视化功能进行批处理 ETL 和探索性数据分析;
通过 Flink 流处理 SQL+UDF+Zeppelin 的内置可视化功能进行流式 ETL 和流式数据分析;
通过 PyFlink+Alink 编写机器学习处理流程。

分享嘉宾:

  • 孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 章剑锋(简锋),Apache Member,Apache Zeppelin PMC,阿里巴巴高级技术专家。

■ Talk 9

演讲 | Flink + AI Flow:让 AI 易如反掌

目前,已经有很多项目帮助用户构建他们的人工智能平台,如 MLFlow、TFX、Metaflow、Sagemaker 等。这些项目大多集中在离线训练和在线推理的场景上,而且其中一些仅在特定的引擎和平台上可用。

在本次演讲中,我们将介绍一个名为 AI Flow 的新项目,该项目既解决了在线和离线训练过程,又不强依赖引擎和平台,因此用户可以在高度混合的环境中轻松地定义一个 AI 工作流。另一方面,作为一个统一的引擎,Flink 是少数能够实现 AI Flow 中定义的所有语义的引擎之一。我们将演示用户如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。

分享嘉宾:秦江杰,Apache Flink PMC,阿里巴巴高级技术专家。

Flink Forward 全球在线会议中文精华版

■ 最佳观看方式

本次直播将在 Flink Forward 中文版大会官网进行,点击「阅读原文」或复制下方官网链接了解更多详情,注册登陆后即可预约直播观看。届时,社区将提前以短信通知的形式提醒大家参与。

大会官网直播预约:
https://developer.aliyun.com/topic/ffsf2020

640.jpg

预约成功后显示如下:

640 22.png

■ 完整版议程

Flink Forward 全球直播精华版共分为 Keynote 重点议题、Flink 最佳实践、深度技术应用、社区生态四部分,形式上由北京、上海、杭州三地轮流直播,在这里您将通过多样化场景的实践案例了解 Flink 核心优势及未来发展。

  • 直播时间:4月25-26日
  • 分享嘉宾:

    • Apache Member、Flink PMC
    • Apache Flink 核心贡献者
    • 大厂一线技术专家
  • 详细议程:

最新版 FFSF_0407_banner_0407_750_250 Copy 2.jpg

(最终议题以实际为准)

4月25-26日,锁定 Flink Forward 全球直播中文精华版!了解更多大会详情,可钉钉扫描下方二维码进群咨询~

【2群】社区大群二维码.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
8天前
|
SQL Java 关系型数据库
Flink DataSet API迁移到DataStream API实战
本文介绍了作者的Flink项目从DataSet API迁移到DataStream API的背景、方法和遇到的问题以及解决方案。
150 3
|
8天前
|
监控 Oracle 关系型数据库
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
44 8
|
8天前
|
传感器 存储 缓存
[尚硅谷flink学习笔记] 实战案例TopN 问题
这段内容是关于如何使用Apache Flink解决实时统计水位传感器数据中,在一定时间窗口内出现次数最多的水位问题,即"Top N"问题。首先,介绍了一个使用滑动窗口的简单实现,通过收集传感器数据,按照水位计数,然后排序并输出前两名。接着,提出了全窗口和优化方案,其中优化包括按键分区(按水位vc分组)、开窗操作(增量聚合计算count)和过程函数处理(聚合并排序输出Top N结果)。最后,给出了一个使用`KeyedProcessFunction`进行优化的示例代码,通过按键by窗口结束时间,确保每个窗口的所有数据到达后再进行处理,提高了效率。
|
8天前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
562 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
8天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
93 0
|
8天前
|
资源调度 Kubernetes Java
Flink--day02、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--day022、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
155 5
|
8天前
|
机器学习/深度学习 消息中间件 算法
Flink ML的新特性解析与应用
本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI特征工程专场的分享。
129281 5
Flink ML的新特性解析与应用
|
8天前
|
SQL 存储 人工智能
Flink 在蚂蚁实时特征平台的深度应用
本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。
597 3
Flink 在蚂蚁实时特征平台的深度应用
|
8天前
|
关系型数据库 MySQL Java
Flink cdc报错问题之线程不够报错如何解决
Flink CDC报错指的是使用Apache Flink的Change Data Capture(CDC)组件时遇到的错误和异常;本合集将汇总Flink CDC常见的报错情况,并提供相应的诊断和解决方法,帮助用户快速恢复数据处理任务的正常运行。
|
8天前
|
关系型数据库 MySQL 数据处理
Flink cdc报错问题之消费binlog报错如何解决
Flink CDC报错指的是使用Apache Flink的Change Data Capture(CDC)组件时遇到的错误和异常;本合集将汇总Flink CDC常见的报错情况,并提供相应的诊断和解决方法,帮助用户快速恢复数据处理任务的正常运行。

热门文章

最新文章

相关产品

  • 实时计算 Flink版