Flink 实战:如何解决应用中的技术难题?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。 Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。

倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。

Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。本文将详细介绍4月25日下午半场直播议程。

4/25 Flink Forward 直播下午场亮点

1. Keynote:您可了解 Cloudera 集成 Flink 的最新进展。
2. 实践系列:将分享 Uber Flink CEP 的应用实践、Netflix 的自动扩缩容、滴滴 StreamSQL 的大规模应用、最差实践的反面教材有哪些。
3. 社区生态:介绍 PyFlink + Zeppelin 的上手应用、如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。
4. Flink SQL:将进行 Flink SQL 的深度解析及 2020 的最新动向分享。

■ Talk 1

圆桌 | Keynote: Apache Flink - Completing Cloudera’s End to End Streaming Platform

今年 1 月,Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

如今,集成 Flink 的 Cloudera Data Platform 有何表现,本次 Flink Forward,来自 Cloudera 的技术专家们将分享其端到端的流处理平台详细功能及技术细节。

分享嘉宾:

  • Marton Balassi,Apache Flink PMC,流 API 的第一批贡献者之一。
  • Joe Witt,Cloudera 工程部副总裁,专注于 Cloudera Data Flow(CDF)产品。

解说嘉宾:

杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 2

圆桌 | Flink SQL 之 2020:舍我其谁

四年前,Apache Flink 社区开始添加 SQL 支持,以简化和统一静态和流式数据的处理。如今,Flink 在阿里巴巴、华为、Lyft、Uber、Yelp 和其他许多公司运行业务关键的批处理和流式 SQL 查询。尽管社区在过去几年取得了重大进展,但发展蓝图上仍有更远大的目标,我们也在加快开发进度。

在过去的几个月里,社区添加了一些重要的改进和扩展,包括对 DDL 的支持、类型系统和 Catalog 接口的重构,以及 Apache Hive 的集成。出于跟进 Flink SQL 及其生态系统所做的所有开发工作的考虑,本次会议将以一个系统的完整的示例重点介绍 2020 年 Flink SQL。基于实际的用例场景,我们将展示:

  • 如何定义由各种存储系统支持的表
  • 如何使用流式 SQL 查询解决常见问题
  • 演示 Flink 与 Hive 的集成
  • 演示如何定义和使用用户定义的函数

并且,我们将分享即将推出的功能和未来展望。

分享嘉宾:

  • Fabian Hueske,Apache Flink PMC。
  • Timo Walther,Apache Flink PMC。

解说嘉宾:

伍翀(云邪),Apache Flink PMC,阿里巴巴技术专家。

■ Talk 3

圆桌 | Apache Flink 误用之痛

分布式流处理正从一种在大数据边缘的技术演变为一种关键的、赋能企业为其客户提供高可扩展的实时服务的技术。Apache Flink 商业母公司 Ververica 以及 Flink 社区中的其他用户都见证了这一发展。在与我们的用户以及更广泛的社区合作中,我们看到了一些比较成功的案例,同时也看到了一些问题。

在本次演讲中,我将分享一些采用分布式流处理的趣闻轶事和经验教训,包括 Apache Flink 特有的以及跨框架的。通过本次分享,您将了解如何消除故障的发生,如何做到无忧无虑的看大屏。

分享嘉宾:Konstantin Knauf,Ververica Platform 产品负责人。

解说嘉宾:孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。

■ Talk 4

圆桌 | Netflix 的 Flink 自动扩缩容

Keystone 数据管道管理数千个 Flink 管道,工作负载可变。这些管道是简单的数据路由,从 Kafka 读取并写入三个接收器之一。为了减少操作开销,我们为这些路由程序实现了自动扩缩容。

自动扩缩容将我们的资源使用量减少了25%-45%(因地区和时间而异),极大减轻了负担。本次 talk 将深入探讨实现大规模简单管道自动扩缩容的数学、算法和基础设施细节并讨论自动扩缩容复杂管道的未来工作。

分享嘉宾:Timothy Farkas,Netflix 软件工程师。

解说嘉宾:吕文龙(龙三),阿里巴巴技术专家。

■ Talk 5

圆桌 | Uber :使用 Flink CEP 进行地理情形检测的实践

Uber 在复杂的物理世界中运作,其提供可靠服务的挑战之一是实时检测地理定位和动态的场景,例如空间热点,需求/供应不平衡的街道等。由于 Uber 的全球规模庞大,街道和交通拥堵,因此这个问题很难解决。

为了解决这个问题,Uber 工程师建立了由 Apache Flink 和 CEP 库提供支持的地理空间状况检测平台。在本次演讲中,Uber 的工程师将介绍如何利用 Apache Flink,并通过 CEP 模式匹配来推导地理空间语义以及在平台搭建和采用的各种技术所涉及的挑战。

分享嘉宾:Teng (Niel) Hu,Uber 软件工程师。

解说嘉宾:付典,Apache Flink Committer,阿里巴巴技术专家。

■ Talk 6

演讲 | A deep dive into Flink SQL

在过去的两个大版本中(1.9 和 1.10),Apache Flink 社区花了很大的精力去改造架构,让架构更加地流批统一。一个例子就是 Flink SQL 提供了在一套 API 下,多 SQL planner 的支持。本演讲将首先讨论这些举动背后的动机,然后会深入 Flink SQL 介绍其内部的一些运行机制。

本次演讲会介绍流批统一的架构,以及 Flink 如何将查询翻译成关系表达式,并利用 Calcite 优化他们,继而生成高效的运行时代码。除此之外,还会详细地介绍查询的生命周期,常见的一些优化是如何工作的,Flink 如何利用二进制数据格式作为基础数据结构,以及某些特定算子是如何工作的。这将给听众带来对 Flink SQL 内部机制更好的理解。

分享嘉宾:

  • 杨克特(鲁尼),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 伍翀(云邪)Apache Flink PMC,阿里巴巴技术专家。

■ Talk 7

演讲 | Flink's application at Didi

滴滴有着丰富的实时计算场景,Flink 已经广泛应用于实时监控、数据通道、特征提取、实时数仓、在线业务等领域,我们还基于 Flink Table API 打造了 StreamSQL 产品,结合一站式开发平台,降低了用户使用成本,目前 StreamSQL 覆盖率已超过 80%。目前,滴滴的实时计算任务已达 7000+,每日处理数据量超过 2 万亿。

分享嘉宾:薛康,现任滴滴技术专家,实时计算负责人。毕业于浙江大学,曾任百度高级研发工程师,对大数据生态建设有丰富经验。

■ Talk 8

演讲 | 终于等到你:PyFlink + Zeppelin

Flink 在其统一批处理和流处理的核心引擎方面取得了巨大的进展,但是用户入门的门槛仍然很高,比如对于只熟悉 Python 和 SQL 的数据分析师和数据科学家,入门尤为困难。多年来,用户要求在 Apache Flink 中提供内置且完善的 Python 支持,以便能够使用他们熟悉的编程语言的同时利用 Flink 的独特功能。

Apache Flink 的 1.9 版本添加了 Python Table API(也称为 PyFlink);并且在 1.10 中增加了对原生 Python UDF(基于 Apache Beam 的可移植性框架)的支持。后续,我们还会不断完善 PyFlink。下一个版本里我们将会支持定义 Python 的机器学习处理流程,它将使用户能够完全在 PyFlink 中实现复杂的机器学习应用程序。除此之外,我们还集成了 Flink 和 Zeppelin notebook,并且重新设计了 Zeppelin 中过时的 Flink 解释器,使其适合以下 3 种主要的 Flink 场景:

通过 Flink 批处理 SQL+UDF+Zeppelin 的内置可视化功能进行批处理 ETL 和探索性数据分析;
通过 Flink 流处理 SQL+UDF+Zeppelin 的内置可视化功能进行流式 ETL 和流式数据分析;
通过 PyFlink+Alink 编写机器学习处理流程。

分享嘉宾:

  • 孙金城(金竹),Apache Member,Apache Flink PMC,阿里巴巴高级技术专家。
  • 章剑锋(简锋),Apache Member,Apache Zeppelin PMC,阿里巴巴高级技术专家。

■ Talk 9

演讲 | Flink + AI Flow:让 AI 易如反掌

目前,已经有很多项目帮助用户构建他们的人工智能平台,如 MLFlow、TFX、Metaflow、Sagemaker 等。这些项目大多集中在离线训练和在线推理的场景上,而且其中一些仅在特定的引擎和平台上可用。

在本次演讲中,我们将介绍一个名为 AI Flow 的新项目,该项目既解决了在线和离线训练过程,又不强依赖引擎和平台,因此用户可以在高度混合的环境中轻松地定义一个 AI 工作流。另一方面,作为一个统一的引擎,Flink 是少数能够实现 AI Flow 中定义的所有语义的引擎之一。我们将演示用户如何使用 AI Flow 与 Flink 一起定义一个生产级 AI 工作流。

分享嘉宾:秦江杰,Apache Flink PMC,阿里巴巴高级技术专家。

Flink Forward 全球在线会议中文精华版

■ 最佳观看方式

本次直播将在 Flink Forward 中文版大会官网进行,点击「阅读原文」或复制下方官网链接了解更多详情,注册登陆后即可预约直播观看。届时,社区将提前以短信通知的形式提醒大家参与。

大会官网直播预约:
https://developer.aliyun.com/topic/ffsf2020

640.jpg

预约成功后显示如下:

640 22.png

■ 完整版议程

Flink Forward 全球直播精华版共分为 Keynote 重点议题、Flink 最佳实践、深度技术应用、社区生态四部分,形式上由北京、上海、杭州三地轮流直播,在这里您将通过多样化场景的实践案例了解 Flink 核心优势及未来发展。

  • 直播时间:4月25-26日
  • 分享嘉宾:

    • Apache Member、Flink PMC
    • Apache Flink 核心贡献者
    • 大厂一线技术专家
  • 详细议程:

最新版 FFSF_0407_banner_0407_750_250 Copy 2.jpg

(最终议题以实际为准)

4月25-26日,锁定 Flink Forward 全球直播中文精华版!了解更多大会详情,可钉钉扫描下方二维码进群咨询~

【2群】社区大群二维码.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
SQL Java 关系型数据库
Flink DataSet API迁移到DataStream API实战
本文介绍了作者的Flink项目从DataSet API迁移到DataStream API的背景、方法和遇到的问题以及解决方案。
185 3
|
2月前
|
监控 Oracle 关系型数据库
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
51 8
|
1月前
|
SQL 搜索推荐 OLAP
Flink 流批一体场景应用及落地情况
本文由阿里云 Flink 团队苏轩楠老师撰写,旨在介绍 Flink 流批一体在几个常见场景下的应用。
67673 4
Flink 流批一体场景应用及落地情况
|
11天前
|
监控 数据可视化 BI
基于Dataphin+Flink构建期货交易监察实时应用
新一代证券交易监察系统利用大数据和实时计算技术强化风险控制、交易数据处理、识别异常交易等能力。通过Dataphin与Flink结合,构建期货交易监察实时数据应用;借助QuickBI用于打造实时看板和预警体系,实现期货交易监察的实时可视化分析和自动化预警。
161 0
|
11天前
|
SQL 监控 Java
实时计算 Flink版产品使用问题之出现反压(Backpressure)问题时,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
消息中间件 分布式计算 Kafka
深度分析:Apache Flink及其在大数据处理中的应用
Apache Flink是低延迟、高吞吐量的流处理框架,以其状态管理和事件时间处理能力脱颖而出。与Apache Spark Streaming相比,Flink在实时性上更强,但Spark生态系统更丰富。Apache Storm在低延迟上有优势,而Kafka Streams适合轻量级流处理。选型考虑延迟、状态管理、生态系统和运维成本。Flink适用于实时数据分析、复杂事件处理等场景,使用时注意资源配置、状态管理和窗口操作的优化。
|
1月前
|
SQL Kubernetes 数据处理
实时计算 Flink版产品使用问题之在 flink-conf.yaml 中定义的配置在某些情况下未被正确应用到 K8s 上运行的任务管理器(JobManager)和任务管理节点(TaskManager),是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
1287 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
2月前
|
传感器 存储 缓存
[尚硅谷flink学习笔记] 实战案例TopN 问题
这段内容是关于如何使用Apache Flink解决实时统计水位传感器数据中,在一定时间窗口内出现次数最多的水位问题,即"Top N"问题。首先,介绍了一个使用滑动窗口的简单实现,通过收集传感器数据,按照水位计数,然后排序并输出前两名。接着,提出了全窗口和优化方案,其中优化包括按键分区(按水位vc分组)、开窗操作(增量聚合计算count)和过程函数处理(聚合并排序输出Top N结果)。最后,给出了一个使用`KeyedProcessFunction`进行优化的示例代码,通过按键by窗口结束时间,确保每个窗口的所有数据到达后再进行处理,提高了效率。
105 1
|
2月前
|
机器学习/深度学习 消息中间件 算法
Flink ML的新特性解析与应用
本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI特征工程专场的分享。
129465 5
Flink ML的新特性解析与应用

热门文章

最新文章

相关产品

  • 实时计算 Flink版