Flink 实战:如何解决应用中的技术难题?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。 Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。

倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。

Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。本文将详细介绍4月25日下午半场直播议程。

4/25 Flink Forward 直播下午场亮点

1. Keynote:您可了解 Cloudera 集成 Flink 的最新进展。
2. 实践系列:将分享 Uber Flink CEP 的应用实践、Netflix 的自动扩缩容、滴滴 StreamSQL 的大规模应用、最差实践的反面教材有哪些。
3. 社区生态:介绍 PyFlink + Zeppelin 的上手应用、如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。
4. Flink SQL:将进行 Flink SQL 的深度解析及 2020 的最新动向分享。

■ Talk 1

圆桌 | Keynote: Apache Flink - Completing Cloudera’s End to End Streaming Platform

今年 1 月,Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

如今,集成 Flink 的 Cloudera Data Platform 有何表现,本次 Flink Forward,来自 Cloudera 的技术专家们将分享其端到端的流处理平台详细功能及技术细节。

分享嘉宾:

  • Marton Balassi,Apache Flink PMC,流 API 的第一批贡献者之一。
  • Joe Witt,Cloudera 工程部副总裁,专注于 Cloudera Data Flow(CDF)产品。

解说嘉宾:

杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 2

圆桌 | Flink SQL 之 2020:舍我其谁

四年前,Apache Flink 社区开始添加 SQL 支持,以简化和统一静态和流式数据的处理。如今,Flink 在阿里巴巴、华为、Lyft、Uber、Yelp 和其他许多公司运行业务关键的批处理和流式 SQL 查询。尽管社区在过去几年取得了重大进展,但发展蓝图上仍有更远大的目标,我们也在加快开发进度。

在过去的几个月里,社区添加了一些重要的改进和扩展,包括对 DDL 的支持、类型系统和 Catalog 接口的重构,以及 Apache Hive 的集成。出于跟进 Flink SQL 及其生态系统所做的所有开发工作的考虑,本次会议将以一个系统的完整的示例重点介绍 2020 年 Flink SQL。基于实际的用例场景,我们将展示:

  • 如何定义由各种存储系统支持的表
  • 如何使用流式 SQL 查询解决常见问题
  • 演示 Flink 与 Hive 的集成
  • 演示如何定义和使用用户定义的函数

并且,我们将分享即将推出的功能和未来展望。

分享嘉宾:

  • Fabian Hueske,Apache Flink PMC。
  • Timo Walther,Apache Flink PMC。

解说嘉宾:

伍翀(云邪),Apache Flink PMC,阿里巴巴技术专家。

■ Talk 3

圆桌 | Apache Flink 误用之痛

分布式流处理正从一种在大数据边缘的技术演变为一种关键的、赋能企业为其客户提供高可扩展的实时服务的技术。Apache Flink 商业母公司 Ververica 以及 Flink 社区中的其他用户都见证了这一发展。在与我们的用户以及更广泛的社区合作中,我们看到了一些比较成功的案例,同时也看到了一些问题。

在本次演讲中,我将分享一些采用分布式流处理的趣闻轶事和经验教训,包括 Apache Flink 特有的以及跨框架的。通过本次分享,您将了解如何消除故障的发生,如何做到无忧无虑的看大屏。

分享嘉宾:Konstantin Knauf,Ververica Platform 产品负责人。

解说嘉宾:孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 4

圆桌 | Netflix 的 Flink 自动扩缩容

Keystone 数据管道管理数千个 Flink 管道,工作负载可变。这些管道是简单的数据路由,从 Kafka 读取并写入三个接收器之一。为了减少操作开销,我们为这些路由程序实现了自动扩缩容。

自动扩缩容将我们的资源使用量减少了25%-45%(因地区和时间而异),极大减轻了负担。本次 talk 将深入探讨实现大规模简单管道自动扩缩容的数学、算法和基础设施细节并讨论自动扩缩容复杂管道的未来工作。

分享嘉宾:Timothy Farkas,Netflix 软件工程师。

解说嘉宾:吕文龙(龙三),阿里巴巴技术专家。

■ Talk 5

圆桌 | Uber :使用 Flink CEP 进行地理情形检测的实践

Uber 在复杂的物理世界中运作,其提供可靠服务的挑战之一是实时检测地理定位和动态的场景,例如空间热点,需求/供应不平衡的街道等。由于 Uber 的全球规模庞大,街道和交通拥堵,因此这个问题很难解决。

为了解决这个问题,Uber 工程师建立了由 Apache Flink 和 CEP 库提供支持的地理空间状况检测平台。在本次演讲中,Uber 的工程师将介绍如何利用 Apache Flink,并通过 CEP 模式匹配来推导地理空间语义以及在平台搭建和采用的各种技术所涉及的挑战。

分享嘉宾:Teng (Niel) Hu,Uber 软件工程师。

解说嘉宾:付典,Apache Flink Committer,阿里巴巴技术专家。

■ Talk 6

演讲 | A deep dive into Flink SQL

在过去的两个大版本中(1.9 和 1.10),Apache Flink 社区花了很大的精力去改造架构,让架构更加地流批统一。一个例子就是 Flink SQL 提供了在一套 API 下,多 SQL planner 的支持。本演讲将首先讨论这些举动背后的动机,然后会深入 Flink SQL 介绍其内部的一些运行机制。

本次演讲会介绍流批统一的架构,以及 Flink 如何将查询翻译成关系表达式,并利用 Calcite 优化他们,继而生成高效的运行时代码。除此之外,还会详细地介绍查询的生命周期,常见的一些优化是如何工作的,Flink 如何利用二进制数据格式作为基础数据结构,以及某些特定算子是如何工作的。这将给听众带来对 Flink SQL 内部机制更好的理解。

分享嘉宾:

  • 杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 伍翀(云邪)Apache Flink PMC,阿里巴巴技术专家。

■ Talk 7

演讲 | Flink's application at Didi

滴滴有着丰富的实时计算场景,Flink 已经广泛应用于实时监控、数据通道、特征提取、实时数仓、在线业务等领域,我们还基于 Flink Table API 打造了 StreamSQL 产品,结合一站式开发平台,降低了用户使用成本,目前 StreamSQL 覆盖率已超过 80%。目前,滴滴的实时计算任务已达 7000+,每日处理数据量超过 2 万亿。

分享嘉宾:薛康,现任滴滴技术专家,实时计算负责人。毕业于浙江大学,曾任百度高级研发工程师,对大数据生态建设有丰富经验。

■ Talk 8

演讲 | 终于等到你:PyFlink + Zeppelin

Flink 在其统一批处理和流处理的核心引擎方面取得了巨大的进展,但是用户入门的门槛仍然很高,比如对于只熟悉 Python 和 SQL 的数据分析师和数据科学家,入门尤为困难。多年来,用户要求在 Apache Flink 中提供内置且完善的 Python 支持,以便能够使用他们熟悉的编程语言的同时利用 Flink 的独特功能。

Apache Flink 的 1.9 版本添加了 Python Table API(也称为 PyFlink);并且在 1.10 中增加了对原生 Python UDF(基于 Apache Beam 的可移植性框架)的支持。后续,我们还会不断完善 PyFlink。下一个版本里我们将会支持定义 Python 的机器学习处理流程,它将使用户能够完全在 PyFlink 中实现复杂的机器学习应用程序。除此之外,我们还集成了 Flink 和 Zeppelin notebook,并且重新设计了 Zeppelin 中过时的 Flink 解释器,使其适合以下 3 种主要的 Flink 场景:

通过 Flink 批处理 SQL+UDF+Zeppelin 的内置可视化功能进行批处理 ETL 和探索性数据分析;
通过 Flink 流处理 SQL+UDF+Zeppelin 的内置可视化功能进行流式 ETL 和流式数据分析;
通过 PyFlink+Alink 编写机器学习处理流程。

分享嘉宾:

  • 孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 章剑锋(简锋),Apache Member,Apache Zeppelin PMC,阿里巴巴高级技术专家。

■ Talk 9

演讲 | Flink + AI Flow:让 AI 易如反掌

目前,已经有很多项目帮助用户构建他们的人工智能平台,如 MLFlow、TFX、Metaflow、Sagemaker 等。这些项目大多集中在离线训练和在线推理的场景上,而且其中一些仅在特定的引擎和平台上可用。

在本次演讲中,我们将介绍一个名为 AI Flow 的新项目,该项目既解决了在线和离线训练过程,又不强依赖引擎和平台,因此用户可以在高度混合的环境中轻松地定义一个 AI 工作流。另一方面,作为一个统一的引擎,Flink 是少数能够实现 AI Flow 中定义的所有语义的引擎之一。我们将演示用户如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。

分享嘉宾:秦江杰,Apache Flink PMC,阿里巴巴高级技术专家。

Flink Forward 全球在线会议中文精华版

■ 最佳观看方式

本次直播将在 Flink Forward 中文版大会官网进行,点击「阅读原文」或复制下方官网链接了解更多详情,注册登陆后即可预约直播观看。届时,社区将提前以短信通知的形式提醒大家参与。

大会官网直播预约:
https://developer.aliyun.com/topic/ffsf2020

640.jpg

预约成功后显示如下:

640 22.png

■ 完整版议程

Flink Forward 全球直播精华版共分为 Keynote 重点议题、Flink 最佳实践、深度技术应用、社区生态四部分,形式上由北京、上海、杭州三地轮流直播,在这里您将通过多样化场景的实践案例了解 Flink 核心优势及未来发展。

  • 直播时间:4月25-26日
  • 分享嘉宾:

    • Apache Member、Flink PMC
    • Apache Flink 核心贡献者
    • 大厂一线技术专家
  • 详细议程:

最新版 FFSF_0407_banner_0407_750_250 Copy 2.jpg

(最终议题以实际为准)

4月25-26日,锁定 Flink Forward 全球直播中文精华版!了解更多大会详情,可钉钉扫描下方二维码进群咨询~

【2群】社区大群二维码.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
144 1
|
14天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
46 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
2月前
|
消息中间件 资源调度 API
Apache Flink 流批融合技术介绍
本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享,内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一,但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略,自动适应不同场景需求。文章详细介绍了如何通过量化指标(如isProcessingBacklog和isInsertOnly)实现这一目标,并展示了针对不同场景的具体优化措施。此外,还概述了社区当前进展及未来规划,包括将优化方案推向Flink社区、动态调整算子流程结构等。
383 31
Apache Flink 流批融合技术介绍
|
3月前
|
Cloud Native 安全 调度
Flink 新一代流计算和容错问题之Flink 通过云原生技术改进容错设计要如何操作
Flink 新一代流计算和容错问题之Flink 通过云原生技术改进容错设计要如何操作
|
3月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
60 1
|
3月前
|
API C# Shell
WPF与Windows Shell完美融合:深入解析文件系统操作技巧——从基本文件管理到高级Shell功能调用,全面掌握WPF中的文件处理艺术
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的关键组件,用于构建 Windows 桌面应用程序。WPF 提供了丰富的功能来创建美观且功能强大的用户界面。本文通过问题解答的形式,探讨了如何在 WPF 应用中集成 Windows Shell 功能,并通过具体示例代码展示了文件系统的操作方法,包括列出目录下的所有文件、创建和删除文件、移动和复制文件以及打开文件夹或文件等。
76 0
|
3月前
|
机器学习/深度学习 监控 Serverless
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
|
3月前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
3月前
|
存储 监控 Serverless
Serverless 应用的监控与调试问题之Pravega和Flink实现端到端的auto-scaling要如何操作
Serverless 应用的监控与调试问题之Pravega和Flink实现端到端的auto-scaling要如何操作
|
3月前
|
SQL 监控 大数据
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化

相关产品

  • 实时计算 Flink版