Flink 实战：如何解决应用中的技术难题？-阿里云开发者社区

Flink 实战：如何解决应用中的技术难题？

2020-04-21 4239

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 倒计时 5 天！4月25-26日，全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。 Flink Forward 全球在线会议精华版均为中文直播，核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分，由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说，您可直接免费在线观看。

倒计时 5 天！4月25-26日，全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。

Flink Forward 全球在线会议精华版均为中文直播，核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分，由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说，您可直接免费在线观看。本文将详细介绍4月25日下午半场直播议程。

4/25 Flink Forward 直播下午场亮点

1. Keynote：您可了解 Cloudera 集成 Flink 的最新进展。
2. 实践系列：将分享 Uber Flink CEP 的应用实践、Netflix 的自动扩缩容、滴滴 StreamSQL 的大规模应用、最差实践的反面教材有哪些。
3. 社区生态：介绍 PyFlink + Zeppelin 的上手应用、如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。
4. Flink SQL：将进行 Flink SQL 的深度解析及 2020 的最新动向分享。

■ Talk 1

圆桌 | Keynote: Apache Flink - Completing Cloudera’s End to End Streaming Platform

今年 1 月，Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品，Apache Flink PMC Chair Stephan 也回应：“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

如今，集成 Flink 的 Cloudera Data Platform 有何表现，本次 Flink Forward，来自 Cloudera 的技术专家们将分享其端到端的流处理平台详细功能及技术细节。

分享嘉宾：

Marton Balassi，Apache Flink PMC，流 API 的第一批贡献者之一。
Joe Witt，Cloudera 工程部副总裁，专注于 Cloudera Data Flow（CDF）产品。

解说嘉宾：

杨克特（鲁尼），Apache Member，Apache Flink PMC，阿里巴巴高级技术专家。

■ Talk 2

圆桌 | Flink SQL 之 2020：舍我其谁

四年前，Apache Flink 社区开始添加 SQL 支持，以简化和统一静态和流式数据的处理。如今，Flink 在阿里巴巴、华为、Lyft、Uber、Yelp 和其他许多公司运行业务关键的批处理和流式 SQL 查询。尽管社区在过去几年取得了重大进展，但发展蓝图上仍有更远大的目标，我们也在加快开发进度。

在过去的几个月里，社区添加了一些重要的改进和扩展，包括对 DDL 的支持、类型系统和 Catalog 接口的重构，以及 Apache Hive 的集成。出于跟进 Flink SQL 及其生态系统所做的所有开发工作的考虑，本次会议将以一个系统的完整的示例重点介绍 2020 年 Flink SQL。基于实际的用例场景，我们将展示：

如何定义由各种存储系统支持的表
如何使用流式 SQL 查询解决常见问题
演示 Flink 与 Hive 的集成
演示如何定义和使用用户定义的函数

并且，我们将分享即将推出的功能和未来展望。

分享嘉宾：

Fabian Hueske，Apache Flink PMC。
Timo Walther，Apache Flink PMC。

解说嘉宾：

伍翀（云邪），Apache Flink PMC，阿里巴巴技术专家。

■ Talk 3

圆桌 | Apache Flink 误用之痛

分布式流处理正从一种在大数据边缘的技术演变为一种关键的、赋能企业为其客户提供高可扩展的实时服务的技术。Apache Flink 商业母公司 Ververica 以及 Flink 社区中的其他用户都见证了这一发展。在与我们的用户以及更广泛的社区合作中，我们看到了一些比较成功的案例，同时也看到了一些问题。

在本次演讲中，我将分享一些采用分布式流处理的趣闻轶事和经验教训，包括 Apache Flink 特有的以及跨框架的。通过本次分享，您将了解如何消除故障的发生，如何做到无忧无虑的看大屏。

分享嘉宾：Konstantin Knauf，Ververica Platform 产品负责人。

解说嘉宾：孙金城（金竹），Apache Member，Apache Flink PMC，阿里巴巴高级技术专家。

■ Talk 4

圆桌 | Netflix 的 Flink 自动扩缩容

Keystone 数据管道管理数千个 Flink 管道，工作负载可变。这些管道是简单的数据路由，从 Kafka 读取并写入三个接收器之一。为了减少操作开销，我们为这些路由程序实现了自动扩缩容。

自动扩缩容将我们的资源使用量减少了25%-45%（因地区和时间而异），极大减轻了负担。本次 talk 将深入探讨实现大规模简单管道自动扩缩容的数学、算法和基础设施细节并讨论自动扩缩容复杂管道的未来工作。

分享嘉宾：Timothy Farkas，Netflix 软件工程师。

解说嘉宾：吕文龙（龙三），阿里巴巴技术专家。

■ Talk 5

圆桌 | Uber ：使用 Flink CEP 进行地理情形检测的实践

Uber 在复杂的物理世界中运作，其提供可靠服务的挑战之一是实时检测地理定位和动态的场景，例如空间热点，需求/供应不平衡的街道等。由于 Uber 的全球规模庞大，街道和交通拥堵，因此这个问题很难解决。

为了解决这个问题，Uber 工程师建立了由 Apache Flink 和 CEP 库提供支持的地理空间状况检测平台。在本次演讲中，Uber 的工程师将介绍如何利用 Apache Flink，并通过 CEP 模式匹配来推导地理空间语义以及在平台搭建和采用的各种技术所涉及的挑战。

分享嘉宾：Teng (Niel) Hu，Uber 软件工程师。

解说嘉宾：付典，Apache Flink Committer，阿里巴巴技术专家。

■ Talk 6

演讲 | A deep dive into Flink SQL

在过去的两个大版本中（1.9 和 1.10），Apache Flink 社区花了很大的精力去改造架构，让架构更加地流批统一。一个例子就是 Flink SQL 提供了在一套 API 下，多 SQL planner 的支持。本演讲将首先讨论这些举动背后的动机，然后会深入 Flink SQL 介绍其内部的一些运行机制。

本次演讲会介绍流批统一的架构，以及 Flink 如何将查询翻译成关系表达式，并利用 Calcite 优化他们，继而生成高效的运行时代码。除此之外，还会详细地介绍查询的生命周期，常见的一些优化是如何工作的，Flink 如何利用二进制数据格式作为基础数据结构，以及某些特定算子是如何工作的。这将给听众带来对 Flink SQL 内部机制更好的理解。

分享嘉宾：

杨克特（鲁尼），Apache Member，Apache Flink PMC，阿里巴巴高级技术专家。
伍翀（云邪）Apache Flink PMC，阿里巴巴技术专家。

■ Talk 7

演讲 | Flink's application at Didi

滴滴有着丰富的实时计算场景，Flink 已经广泛应用于实时监控、数据通道、特征提取、实时数仓、在线业务等领域，我们还基于 Flink Table API 打造了 StreamSQL 产品，结合一站式开发平台，降低了用户使用成本，目前 StreamSQL 覆盖率已超过 80%。目前，滴滴的实时计算任务已达 7000+，每日处理数据量超过 2 万亿。

分享嘉宾：薛康，现任滴滴技术专家，实时计算负责人。毕业于浙江大学，曾任百度高级研发工程师，对大数据生态建设有丰富经验。

■ Talk 8

演讲 | 终于等到你：PyFlink + Zeppelin

Flink 在其统一批处理和流处理的核心引擎方面取得了巨大的进展，但是用户入门的门槛仍然很高，比如对于只熟悉 Python 和 SQL 的数据分析师和数据科学家，入门尤为困难。多年来，用户要求在 Apache Flink 中提供内置且完善的 Python 支持，以便能够使用他们熟悉的编程语言的同时利用 Flink 的独特功能。

Apache Flink 的 1.9 版本添加了 Python Table API（也称为 PyFlink）；并且在 1.10 中增加了对原生 Python UDF（基于 Apache Beam 的可移植性框架）的支持。后续，我们还会不断完善 PyFlink。下一个版本里我们将会支持定义 Python 的机器学习处理流程，它将使用户能够完全在 PyFlink 中实现复杂的机器学习应用程序。除此之外，我们还集成了 Flink 和 Zeppelin notebook，并且重新设计了 Zeppelin 中过时的 Flink 解释器，使其适合以下 3 种主要的 Flink 场景：

通过 Flink 批处理 SQL+UDF+Zeppelin 的内置可视化功能进行批处理 ETL 和探索性数据分析；
通过 Flink 流处理 SQL+UDF+Zeppelin 的内置可视化功能进行流式 ETL 和流式数据分析；
通过 PyFlink+Alink 编写机器学习处理流程。

分享嘉宾：

孙金城（金竹），Apache Member，Apache Flink PMC，阿里巴巴高级技术专家。
章剑锋（简锋），Apache Member，Apache Zeppelin PMC，阿里巴巴高级技术专家。

■ Talk 9

演讲 | Flink + AI Flow：让 AI 易如反掌

目前，已经有很多项目帮助用户构建他们的人工智能平台，如 MLFlow、TFX、Metaflow、Sagemaker 等。这些项目大多集中在离线训练和在线推理的场景上，而且其中一些仅在特定的引擎和平台上可用。

在本次演讲中，我们将介绍一个名为 AI Flow 的新项目，该项目既解决了在线和离线训练过程，又不强依赖引擎和平台，因此用户可以在高度混合的环境中轻松地定义一个 AI 工作流。另一方面，作为一个统一的引擎，Flink 是少数能够实现 AI Flow 中定义的所有语义的引擎之一。我们将演示用户如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。

分享嘉宾：秦江杰，Apache Flink PMC，阿里巴巴高级技术专家。