FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,FFA 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

生产实践专场集结字节跳动、华为、蚂蚁金服、Shopee、B 站、快手、腾讯、京东物流、小红书的技术专家探讨基于 Flink 的实时场景下技术优化及实践。

Flink 易用性和稳定性在 Shopee 的优化

范 瑞|Tech Lead of Shopee Flink Runtime Team,Apache Flink&Streampark Committer

潘月鹏|Shopee Senior Engineer,Apache StreamPark Committer, Apache Flink Contributor

议题介绍:

本次分享的大部分内容已经(或正在)回馈给 Flink 社区,关注分享及时了解社区动态。

大纲:

一、Troubleshooting 流程优化

  • 作业重启排查流程优化

  • 作业 lag 排查流程优化

二、稳定性优化

  • Container 资源隔离与优化

  • State 和 Checkpoint 的优化

  • 优化 Watermark alignment 达到生产可用

  • 提供更智能更易用的 Restart strategy

三、Task 均衡性调度的优化以及在社区的进展

  • Flink 默认调度器的痛点

  • Task 均衡性调度的原理

  • Task 均衡性调度在社区的进展

  • 收益分析

四、未来规划

  • 优化 Flink 热更新并行度的能力,实现秒级原地扩缩容

  • 基于 Autoscaler 与并行度的热更新实现并行度全托管

B 站 Flink 作业全链路效率优化实践

丁国涛|bilibili 基础架构部资深开发工程师

议题介绍:

本次分享主要介绍 Flink 在 B 站的全链路效率优化的实践,主要包含以下几方面内容:

一、B 站 Flink 现状与挑战

1.1 当前现状

1.2 面临的问题与挑战

二、启动效率优化

2.1 启动效率量化

2.2 启动效率优化

2.3 优化效果

三、运行时容错效率优化

3.1 JobManager HA 优化

3.2 Regional Checkpoint

3.3 Flink SQL 连接关系优化

3.4 单点恢复

四、扩缩容效率优化

4.1 热扩缩方法

4.2 效果展示

五、未来展望

5.1 任务异步重启

5.2 更完备的热扩缩支持

快手 Flink 超大规模生产可用改造

刘建刚|快手技术专家

议题介绍:

一、稳定性建设,讲述快手 Flink 大规模 AZ 逃生能力。

二、Flink runtime adaption 能力建设,主要讲述动态灰度升级。

三、Flink on K8S 技术改造和大规模迁徙。

腾讯基于 Flink 的实时场景下技术优化及实践

张 蛟|腾讯云流计算研发资深高级开发工程师,Apache Flink Contributor

议题介绍:

一、腾讯基于云原生 Flink 的背景及发展现状

二、基于 Flink+数据湖实现流批一体遇到的问题、解决方案及效果

三、针对实时场景下 Flink State 大状态存在的内存及性能问题,优化方案与效果

四、Flink Trace 解决 Flink、Flink Sql、Flink CDC 下的调试困难问题,实现全链路数据跟踪与监控

五、后续的规划及展望

字节跳动实时数仓质量与成本治理平台实践

朱福生|字节跳动数据工程师

议题介绍:

随着业务对数据时效要求的提升和实时任务数量的不断增加,字节跳动已运行了上万的 Flink 实时任务,由于实时任务依赖的组件繁多、开发人员众多 、开发习惯和经验参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此任务治理势在必行,但纵观整个治理过程,仍存在以下矛盾:业务与治理的矛盾、人力与治理的矛盾、问题与可评价的矛盾。本文以下四个方面来介绍实时数仓治理平台如何让实时治理简单、高效、可持续化

一、实时数仓治理平台背景

二、实时数仓治理平台体系

三、实时数仓治理平台收益

四、实时数仓治理平台规划

Flink 自动化运维的大规模落地实践

陈张昊|字节跳动基础架构工程师,Apache Flink Contributor

议题介绍:

过去几年中,字节跳动内部 Flink 作业规模逐渐增长到数万量级,业务有限的人力趋于无力应对随流量变化需人工调优资源配置、单机问题易导致慢节点需人工迁移等带来的运维压力。面对运维难题,沉淀出一套 Flink 自动化运维体系,并在内部大规模落地实践:托管了 1.5W+ 任务,在流量变化时自动扩缩容以避免消费积压的同时可以提升资源使用率、每日自动迁移 1K+ 次慢节点消除消费积压,有效减轻了业务的 Flink 作业运维压力。本次分享我们将从以下 5 个方面介绍 Flink 自动化运维的落地实践。

一、Flink 业务运维难题背景

二、自动化运维系统的整体架构

三、自动扩缩容的实现与生产实践

四、慢节点自动迁移的实现与生产实践

五、未来与展望

Flink 流批一体在华为的平台建设以及应用实践

王 锋|华为技术专家

议题介绍:

一、Flink 流批一体低码数据开发平台建设

二、流批一体运维平台建设

三、流批技术项目演进。主要是体现在资源优化以及性能提升方面的技术项目演进。

四、行业实践。我们支撑场景较多,最近一次我们将流批一体应用在杭州亚运会的分钟级别计算上。

蚂蚁金服 Flink 自动调优实践

张永明|蚂蚁金服实时计算引擎团队技术专家

议题介绍:

一、背景与发展历程:介绍业务使用 Flink 时设置资源的痛点,以及蚂蚁内部在作业调优上尝试的各种方案

二、优化算法介绍 :

2.1 多目标优化算法架构和原理:介绍优化算法的原理以及在一些特殊场景下针对性优化

2.2 优化效果:总结上线后,对延迟作业的优化效果整体利用率的提升

三、集群模式上基于负载调度:介绍在集群模式上的资源画像算法,以及基于实际负载的调度算法

四、未来期望

我的 Flink 作业出了什么问题?如何做平台侧的智能诊断

陈 宇|小红书数据引擎开发工程师,Apache Flink Contributor

议题介绍:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题

二、我们在Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink 实时智能诊断在滴滴的探索与实践

梁钧宁|滴滴高级软件开发工程师

师彬杰|滴滴数据平台资深开发工程师

议题介绍:

本次演讲分为四大块内容:项目背景、诊断能力、成果展示、未来规划。

一、项目背景。介绍智能诊断的背景由来、痛点

二、诊断方案。介绍智能诊断的架构以及当前所具备的能力

三、诊断实践。展示部分诊断案例以及项目取得的阶段性成果

未来规划。智能诊断未来的发展方向。


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
5月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
485 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
6月前
|
SQL 算法 调度
Flink批处理自适应执行计划优化
本文整理自阿里集团高级开发工程师孙夏在Flink Forward Asia 2024的分享,聚焦Flink自适应逻辑执行计划与Join算子优化。内容涵盖自适应批处理调度器、动态逻辑执行计划、自适应Broadcast Hash Join及Join倾斜优化等技术细节,并展望未来改进方向,如支持更多场景和智能优化策略。文章还介绍了Flink UI调整及性能优化措施,为批处理任务提供更高效、灵活的解决方案。
218 0
Flink批处理自适应执行计划优化
|
3月前
|
资源调度 Kubernetes 流计算
Flink在B站的大规模云原生实践
本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。
210 9
Flink在B站的大规模云原生实践
|
4月前
|
SQL 存储 NoSQL
Flink x Paimon 在抖音集团生活服务的落地实践
本文整理自抖音集团数据工程师陆魏与流式计算工程冯向宇在Flink Forward Asia 2024的分享,聚焦抖音生活服务业务中的实时数仓技术演变及Paimon湖仓实践。文章分为三部分:背景及现状、Paimon湖仓实践与技术优化。通过引入Paimon,解决了传统实时数仓开发效率低、资源浪费、稳定性差等问题,显著提升了开发运维效率、节省资源并增强了任务稳定性。同时,文中详细探讨了Paimon在维表实践、宽表建设、标签变更检测等场景的应用,并介绍了其核心技术优化与未来规划。
444 10
Flink x Paimon 在抖音集团生活服务的落地实践
|
4月前
|
SQL 关系型数据库 MySQL
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!
819 1
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
|
4月前
|
资源调度 Kubernetes 调度
网易游戏 Flink 云原生实践
本文分享了网易游戏在Flink实时计算领域的资源管理与架构演进经验,从Yarn到K8s云原生,再到混合云的实践历程。文章详细解析了各阶段的技术挑战与解决方案,包括资源隔离、弹性伸缩、自动扩缩容及服务混部等关键能力的实现。通过混合云架构,网易游戏显著提升了资源利用率,降低了30%机器成本,小作业计算成本下降40%,并为未来性能优化、流批一体及智能运维奠定了基础。
240 9
网易游戏 Flink 云原生实践
|
5月前
|
存储 分布式计算 调度
Flink Shuffle 技术演进之路
本文由阿里云智能Flink团队郭伟杰与哔哩哔哩蒋晓峰在Flink Forward Asia 2024上的分享整理而成,聚焦Flink Shuffle技术的演进与未来规划。内容涵盖低延迟的Pipelined Shuffle、高吞吐的Blocking Shuffle、流批一体的Hybrid Shuffle三大模式及其应用场景,并探讨了Flink与Apache Celeborn的整合、性能优化及长期发展路线图。通过Hybrid Shuffle等创新技术,Flink实现了资源调度灵活性与高性能的平衡,为流批一体化计算提供了强大支持。未来,社区将进一步优化Shuffle机制,提升系统智能化与易用性。
311 14
Flink Shuffle 技术演进之路
|
6月前
|
存储 运维 监控
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。
786 3
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
|
6月前
|
存储 SQL Java
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
511 1
Flink CDC + Hologres高性能数据同步优化实践
|
6月前
|
存储 运维 BI
万字长文带你深入广告场景Paimon+Flink全链路探索与实践
本文将结合实时、离线数据研发痛点和当下Paimon的特性,以实例呈现低门槛、低成本、分钟级延迟的流批一体化方案,点击文章阅读详细内容~

相关产品

  • 实时计算 Flink版