FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

生产实践专场集结字节跳动、华为、蚂蚁金服、Shopee、B 站、快手、腾讯、京东物流、小红书的技术专家探讨基于 Flink 的实时场景下技术优化及实践。

Flink 易用性和稳定性在 Shopee 的优化

范 瑞|Tech Lead of Shopee Flink Runtime Team,Apache Flink&Streampark Committer

潘月鹏|Shopee Senior Engineer,Apache StreamPark Committer, Apache Flink Contributor

议题介绍:

本次分享的大部分内容已经(或正在)回馈给 Flink 社区,关注分享及时了解社区动态。

大纲:

一、Troubleshooting 流程优化

  • 作业重启排查流程优化

  • 作业 lag 排查流程优化

二、稳定性优化

  • Container 资源隔离与优化

  • State 和 Checkpoint 的优化

  • 优化 Watermark alignment 达到生产可用

  • 提供更智能更易用的 Restart strategy

三、Task 均衡性调度的优化以及在社区的进展

  • Flink 默认调度器的痛点

  • Task 均衡性调度的原理

  • Task 均衡性调度在社区的进展

  • 收益分析

四、未来规划

  • 优化 Flink 热更新并行度的能力,实现秒级原地扩缩容

  • 基于 Autoscaler 与并行度的热更新实现并行度全托管

B 站 Flink 作业全链路效率优化实践

丁国涛|bilibili 基础架构部资深开发工程师

议题介绍:

本次分享主要介绍 Flink 在 B 站的全链路效率优化的实践,主要包含以下几方面内容:

一、B 站 Flink 现状与挑战

1.1 当前现状

1.2 面临的问题与挑战

二、启动效率优化

2.1 启动效率量化

2.2 启动效率优化

2.3 优化效果

三、运行时容错效率优化

3.1 JobManager HA 优化

3.2 Regional Checkpoint

3.3 Flink SQL 连接关系优化

3.4 单点恢复

四、扩缩容效率优化

4.1 热扩缩方法

4.2 效果展示

五、未来展望

5.1 任务异步重启

5.2 更完备的热扩缩支持

快手 Flink 超大规模生产可用改造

刘建刚|快手技术专家

议题介绍:

一、稳定性建设,讲述快手 Flink 大规模 AZ 逃生能力。

二、Flink runtime adaption 能力建设,主要讲述动态灰度升级。

三、Flink on K8S 技术改造和大规模迁徙。

腾讯基于 Flink 的实时场景下技术优化及实践

张 蛟|腾讯云流计算研发资深高级开发工程师,Apache Flink Contributor

议题介绍:

一、腾讯基于云原生 Flink 的背景及发展现状

二、基于 Flink+数据湖实现流批一体遇到的问题、解决方案及效果

三、针对实时场景下 Flink State 大状态存在的内存及性能问题,优化方案与效果

四、Flink Trace 解决 Flink、Flink Sql、Flink CDC 下的调试困难问题,实现全链路数据跟踪与监控

五、后续的规划及展望

字节跳动实时数仓质量与成本治理平台实践

朱福生|字节跳动数据工程师

议题介绍:

随着业务对数据时效要求的提升和实时任务数量的不断增加,字节跳动已运行了上万的 Flink 实时任务,由于实时任务依赖的组件繁多、开发人员众多 、开发习惯和经验参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此任务治理势在必行,但纵观整个治理过程,仍存在以下矛盾:业务与治理的矛盾、人力与治理的矛盾、问题与可评价的矛盾。本文以下四个方面来介绍实时数仓治理平台如何让实时治理简单、高效、可持续化

一、实时数仓治理平台背景

二、实时数仓治理平台体系

三、实时数仓治理平台收益

四、实时数仓治理平台规划

Flink 自动化运维的大规模落地实践

陈张昊|字节跳动基础架构工程师,Apache Flink Contributor

议题介绍:

过去几年中,字节跳动内部 Flink 作业规模逐渐增长到数万量级,业务有限的人力趋于无力应对随流量变化需人工调优资源配置、单机问题易导致慢节点需人工迁移等带来的运维压力。面对运维难题,沉淀出一套 Flink 自动化运维体系,并在内部大规模落地实践:托管了 1.5W+ 任务,在流量变化时自动扩缩容以避免消费积压的同时可以提升资源使用率、每日自动迁移 1K+ 次慢节点消除消费积压,有效减轻了业务的 Flink 作业运维压力。本次分享我们将从以下 5 个方面介绍 Flink 自动化运维的落地实践。

一、Flink 业务运维难题背景

二、自动化运维系统的整体架构

三、自动扩缩容的实现与生产实践

四、慢节点自动迁移的实现与生产实践

五、未来与展望

Flink 流批一体在华为的平台建设以及应用实践

王 锋|华为技术专家

议题介绍:

一、Flink 流批一体低码数据开发平台建设

二、流批一体运维平台建设

三、流批技术项目演进。主要是体现在资源优化以及性能提升方面的技术项目演进。

四、行业实践。我们支撑场景较多,最近一次我们将流批一体应用在杭州亚运会的分钟级别计算上。

蚂蚁金服 Flink 自动调优实践

张永明|蚂蚁金服实时计算引擎团队技术专家

议题介绍:

一、背景与发展历程:介绍业务使用 Flink 时设置资源的痛点,以及蚂蚁内部在作业调优上尝试的各种方案

二、优化算法介绍 :

2.1 多目标优化算法架构和原理:介绍优化算法的原理以及在一些特殊场景下针对性优化

2.2 优化效果:总结上线后,对延迟作业的优化效果整体利用率的提升

三、集群模式上基于负载调度:介绍在集群模式上的资源画像算法,以及基于实际负载的调度算法

四、未来期望

我的 Flink 作业出了什么问题?如何做平台侧的智能诊断

陈 宇|小红书数据引擎开发工程师,Apache Flink Contributor

议题介绍:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题

二、我们在Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink 实时智能诊断在滴滴的探索与实践

梁钧宁|滴滴高级软件开发工程师

师彬杰|滴滴数据平台资深开发工程师

议题介绍:

本次演讲分为四大块内容:项目背景、诊断能力、成果展示、未来规划。

一、项目背景。介绍智能诊断的背景由来、痛点

二、诊断方案。介绍智能诊断的架构以及当前所具备的能力

三、诊断实践。展示部分诊断案例以及项目取得的阶段性成果

未来规划。智能诊断未来的发展方向。


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3月前
|
消息中间件 缓存 监控
Flink背压原理以及解决优化
Flink背压原理以及解决优化
85 0
|
10天前
|
监控 Oracle 关系型数据库
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
24 8
|
4天前
|
存储 数据处理 流计算
百度搜索:蓝易云【Flink调优-Checkpoint优化】
综上所述,通过合理配置Checkpoint的参数和策略,可以提高Flink任务的稳定性和性能,从而实现Checkpoint的优化。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
16 5
|
6天前
|
SQL 消息中间件 Java
Flink问题之优化消费如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
17 0
|
10天前
|
算法 大数据 数据处理
【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理
【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理
48 4
|
12天前
|
SQL 大数据 Java
大数据技术之Flink---day01概述、快速上手
大数据技术之Flink---day01概述、快速上手
54 4
|
26天前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
320 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
2月前
|
存储 测试技术 数据处理
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
|
2月前
|
存储 测试技术 Apache
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
本文整理自阿里云 Flink 存储引擎团队李晋忠,兰兆千,梅源关于阿里云实时计算企业级状态存储引擎 Gemini 的研究。
125103 4
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
|
3月前
|
监控 分布式数据库 流计算
Flink 异步IO优化任务
Flink 异步IO优化任务
18 0

相关产品

  • 实时计算 Flink版