FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于 Flink + Paimon 构建流式数据湖相关问题,更有基于 Paimon + StarRocks、Flink + Paimon + Hologres、Paimon + Spark 的流式湖仓最佳应用实践与分析。

Apache Paimon:Streaming Lakehouse is Coming

李劲松|阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员

议题介绍:

分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:

一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon

二、Paimon 的发展历程,核心能力,如何解决数据湖的流动

三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题

四、Paimon 在阿里云上的实践

五、总结

联通基于 Flink&Paimon 的流式数据湖应用实践

王云朋|联通数科大数据高级技术专家,Apache Paimon Contributor

李振豪|联通数科大数据高级技术专家

议题介绍:

本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。

一、业务背景介绍

二、业务要求和痛点分析

三、基于 Flink&Paimon 的湖仓实践

四、Flink&Paimon 应用中遇到的问题及生产优化

五、未来规划

同程旅行基于 Apache Paimon 的数据湖实践

吴祥平|同程旅行大数据计算组负责人

欧阳佳|同程旅行数据开发工程师

议题介绍:

一、Paimon引入

1.1 引入背景

1.2 引入效果

二、Paimon 优化实战

2.1 写入性能和稳定性

2.1 读取性能和稳定性

2.3 丢数据问题

三、Paimon 生态建设

3.1 生态建设

3.1.1 Paimon 集成 Trino

3.1.2 表服务管理

3.1.3 Binlog 结构自动演进

3.1.4 指标监控

四、未来规划

4.1 数据湖仓云上能力

4.2 数据湖加速(集成SR)

4.3 加速实时数仓构建

汽车之家基于 Paimon 的应用实践

王刚|汽车之家高级数据工程师

议题介绍:

一、业务背景

二、基于 Paimon 的业务场景

2.1 实时湖仓的业务实践

2.2 遇到的问题及解决方案

2.3 业务收益

三、基于 Paimon 的平台实践

3.1 StarRocks 集成 Paimon 加速查询

3.2 基于 Metric 的自助诊断功能

四、未来规划:

4.1 实时平台集成 Paimon Web UI

4.2 流式数仓的血缘关系与数据修复

OPPO Data&AI 统一实时湖仓实践之路

付庆午|OPPO 大数据架构师

议题介绍:

一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务

二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题

三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效

四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练

五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI服务

在阿里云上构建 Flink + Paimon 流式湖仓

翁才智|阿里云智能高级开发工程师,Apache Paimon PPMC,Apache Flink Committer

议题介绍:

一、介绍以 Flink + Paimon 为核心,在阿里云上构建流式湖仓的架构。

二、介绍离线场景下的应用:离线数仓的数据更新与合并需要重算大量数据,成本较高,而 Paimon 的更新能力可以解决这个问题。 介绍如何在阿里云上将基于 MaxCompute 的离线数仓升级为 Flink + Paimon + MaxCompute 的流式湖仓。

三、介绍实时场景下的应用:基于 Flink 的实时数仓虽然能达到秒级延时,但涉及 state 的计算成本较高。如果用户可以接受分钟级延时,可以使用 Paimon 在部分场景下代替 state 相关的运算,从而降低成本。 介绍如何在阿里云上将基于 Flink + Hologres 的实时数仓改为 Flink + Paimon + Hologres 的流式湖仓。

网易基于 Flink+Paimon+Amoro 的流式湖仓实践

周劲松|网易平台开发专家,Amoro Mantainer, Apache Paimon Conrtributor

本次分享将先通过网易在数据湖与数据仓库建设的历史过程和遇到的问题,引出公司对具有流批一体特性的湖仓一体存储方案的需求。然后介绍网易开源湖仓管理平台 Amoro 的定位和核心特性。Paimon 的出现弥补了 Iceberg 在流式湖仓下很多场景的不足,Amoro 集成了 Paimon 并在网易内部基于 Paimon 和 Amoro 在流式湖仓场景进行了大量的业务实践,分享将着重介绍实践案例和带来的业务价值。最后总结并分享未来在研发和实践上的一些规划。分享大致内容:

一、网易湖仓建设背景

二、湖仓管理平台 Amoro

三、Amoro 集成 Paimon

四、Paimon + Amoro 业务实践

五、总结与未来规划

Flink + Paimon + Hologres 湖仓一体数据分析

喻良|阿里云智能高级技术专家

一、传统湖仓库实现方案

二、Flink + Paimon+Hologres 构建湖仓一体数据分析实现方案

2.1 Flink + Paimon 构建数据湖中心

2.2 Hologres 进行查询加速

2.3 Hologres 实现实时数仓

三、Hologres 湖仓一体的技术架构和使用介绍

3.1 介绍 Hologres 湖仓一体的技术架构

3.2 Hologres 加速湖上 Paimon 数据使用介绍

3.3 查询、导入

四、Hologres 湖仓分析未来规划

使用 Paimon+StarRocks 极速批流一体湖仓分析

王日宇|阿里云智能高级开发工程师,StarRocks Committer

议题介绍:

一、Paimon+Starrocks 的各类使用场景介绍

二、使用 Paimon+StarRocks 数据湖分析的技术原理

三、使用 Paimon+StarRocks 构建实时数仓方案介绍

四、Paimon+StarRocks 未来的技术规划

滴滴基于 Flink 在流批一体和数据湖方向的探索和实践

岳猛|滴滴 Flink 引擎负责人,Flink/Hudi/Calcite/ZK Contributor

议题介绍:

滴滴围绕 Flink 进行流批一体和数据湖方向上的技术探索和实践,包括介绍使用 Flink streaming/Batch sql 如何完成流批一体能力的建设以及 Flink + Hudi 在滴滴数据湖场景的技术探索和业务落地等。分享大致内容:

一、为什么要引入流批一体架构

二、基于 Flink 的流批一体的架构的实现

三、流批一体在业务场景的落地

四、Flink & Hudi 技术背景介绍

五、实时入湖建设经验

六、在特征和近实时场景的实践总结

七、流批一体和数据湖技术在滴滴的未来规划

Paimon x Spark:不止于数据入湖

毕 岩|阿里云智能开源大数据平台技术专家

邹欣宇|阿里云智能开源大数据平台开发工程师

议题介绍:

一、Paimon 在 Spark 生态的发展

二、Paimon 在湖仓架构下的典型案例

三、Paimon 通过 Gluten/Volex 加速查询

四、未来规划

基于 Flink&StarRocks 构建新一代数据底座

石强|镜舟科技解决方案架构师

议题介绍:

一、传统 hadoop 数据底座方案的介绍和痛点

二、新数据底座方案的介绍和优势

三、架构升级的预期收益

四、客户案例介绍

五、未来与展望

基于 Flink+Paimon 的大数据平台的建设

张军|广联达数据中台部门担任大数据架构师

议题介绍:

一、背景

  • 为了适应业务的不断发展,公司从传统行业逐渐在做数字化转型,在这个过程中要根据客户的业务场景构建自己的大数据平台,很多业务需要能实时的感知数据变化,以便及时的根据数据的变化做出决策,所以能支持实时的数据变更和处理变得非常重要。所以经过对比,在我们的大数据底座建设过程中,我们选用了 Paimon 作为数据湖存储,使用 Flink 作为流处理的引擎。

二、Flink+Paimon 选型

  • 根据具体的业务场景对大数据架构的存储和计算框架进行选型

三、经典应用场景

四、未来规划

  • 基于 Flink 的 Paimon 批处理查询

  • 提高 Flink 流读 Paimon 的时效性

  • 对 Paimon 持续优化,比如 cache catalog、cache manifest、prefix index 等。

平安证券 Flink+Paimon 的实时架构实践

张 兴|平安证券经纪事业部大数据基础架构负责人

汪超飞|平安证券经纪事业部大数据基础架构工程师

议题介绍:

一、架构介绍

1.1 原有 Flink+HBase 架构介绍

1.2 新的 Flink+Paimon 架构介绍

1.3 新架构带来的变化

二、在开户场景中的实践

2.1 原有任务实现方式介绍

2.2 通过 Flink+Paimon 改造介绍

2.3 架构变化后对业务的提升

快手数据湖在实时场景的建设与实践

钟靓|快手技术专家,Hudi Contributor

议题介绍:

快手数据湖已经在内部开始规模化应用,在时效、资源、效率上均有明显收益。通过数据入湖,在数仓、业务数据范围,打造了新的数据管理架构和生产模式。此次分享内容,主要从典型场景实践出发,讲解技术架构的设计。由三个部分构成:

一、Mysql2Hudi : 实时入湖构建分钟级快照 ods

二、kafka2Hudi : 实时入湖构建动态分区 dwd

三、流批统一:

3.1 样本入湖:搜索、广告、推荐系统训练任务的流批统一

3.2 分层入湖:数仓实时离线任务的流批统一


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
19 5
|
4天前
|
监控 Cloud Native 开发者
云原生技术浪潮下的微服务架构实践
云原生技术正引领着现代软件开发的潮流,其中微服务架构作为其核心理念之一,为复杂应用提供了灵活、可扩展的解决方案。本文将探讨在云原生环境下实施微服务架构的策略和挑战,并结合实际案例分析微服务设计的最佳实践,旨在为开发者提供一套可行的微服务部署与管理指南。
|
4天前
|
消息中间件 监控 API
构建微服务架构:从理论到实践的全面指南
本文将深入探讨微服务架构的设计原则、实施步骤和面临的挑战。与传统的单体架构相比,微服务通过其独立性、可伸缩性和灵活性,为现代应用开发提供了新的视角。文章将介绍如何从零开始规划和部署一个微服务系统,包括选择合适的技术栈、处理数据一致性问题以及实现服务间通信。此外,我们还将讨论在迁移至微服务架构过程中可能遇到的技术和组织挑战,以及如何克服这些难题以实现顺利过渡。
|
1天前
|
监控 负载均衡 安全
微服务架构下的API网关设计实践
【6月更文挑战第15天】本文将深入探讨在构建现代软件系统时,如何有效地设计和实现一个API网关。我们将从API网关的核心作用出发,分析其在不同场景下的应用,并结合实际案例,展示如何通过API网关提升系统的可扩展性、安全性和性能。文章旨在为后端开发人员提供一套清晰的指南,帮助他们在微服务架构中实现高效且可靠的API管理策略。
|
1天前
|
设计模式 消息中间件 运维
微服务架构在后端开发中的应用与挑战
微服务架构作为一种现代软件开发方法,带来了灵活性、可扩展性和高效性,但同时也引发了诸如复杂性管理、数据一致性等新的挑战。本文深入探讨了微服务架构在后端开发中的应用场景,以及应对这些挑战的策略。
6 0
|
2天前
|
存储 人工智能 NoSQL
探索数据库技术的奥秘:从基础架构到前沿应用
一、引言 在数字化时代,数据库技术作为信息管理的基石,已经渗透到我们生活的方方面面
|
2天前
|
存储 SQL Cloud Native
揭秘数据库技术的核心与未来:从架构到应用
一、引言 数据库技术是当代信息系统中不可或缺的一部分,它为企业和个人提供了可靠、高效的数据管理解决方案
|
2天前
|
存储 Cloud Native 物联网
数据库技术前沿探索:架构、优化与行业实践
一、引言 在信息化和数字化的浪潮中,数据库技术作为企业核心竞争力的关键要素,其重要性不言而喻
|
3天前
|
前端开发 测试技术 API
探索安卓应用的架构演进:从MVC到MVVM
本篇文章将深入探讨安卓应用开发中的架构演进,特别关注从传统的MVC(Model-View-Controller)到现代流行的MVVM(Model-View-ViewModel)架构的转变。通过对比两种架构的设计理念、实现方式和实际应用案例,解析MVVM在提高代码可维护性和可测试性方面的优势。
7 0
|
3天前
|
运维 监控 安全
园区网典型组网架构及案例实践
园区网典型组网架构及案例实践

热门文章

最新文章