FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于 Flink + Paimon 构建流式数据湖相关问题,更有基于 Paimon + StarRocks、Flink + Paimon + Hologres、Paimon + Spark 的流式湖仓最佳应用实践与分析。

Apache Paimon:Streaming Lakehouse is Coming

李劲松|阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员

议题介绍:

分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:

一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon

二、Paimon 的发展历程,核心能力,如何解决数据湖的流动

三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题

四、Paimon 在阿里云上的实践

五、总结

联通基于 Flink&Paimon 的流式数据湖应用实践

王云朋|联通数科大数据高级技术专家,Apache Paimon Contributor

李振豪|联通数科大数据高级技术专家

议题介绍:

本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。

一、业务背景介绍

二、业务要求和痛点分析

三、基于 Flink&Paimon 的湖仓实践

四、Flink&Paimon 应用中遇到的问题及生产优化

五、未来规划

同程旅行基于 Apache Paimon 的数据湖实践

吴祥平|同程旅行大数据计算组负责人

欧阳佳|同程旅行数据开发工程师

议题介绍:

一、Paimon引入

1.1 引入背景

1.2 引入效果

二、Paimon 优化实战

2.1 写入性能和稳定性

2.1 读取性能和稳定性

2.3 丢数据问题

三、Paimon 生态建设

3.1 生态建设

3.1.1 Paimon 集成 Trino

3.1.2 表服务管理

3.1.3 Binlog 结构自动演进

3.1.4 指标监控

四、未来规划

4.1 数据湖仓云上能力

4.2 数据湖加速(集成SR)

4.3 加速实时数仓构建

汽车之家基于 Paimon 的应用实践

王刚|汽车之家高级数据工程师

议题介绍:

一、业务背景

二、基于 Paimon 的业务场景

2.1 实时湖仓的业务实践

2.2 遇到的问题及解决方案

2.3 业务收益

三、基于 Paimon 的平台实践

3.1 StarRocks 集成 Paimon 加速查询

3.2 基于 Metric 的自助诊断功能

四、未来规划:

4.1 实时平台集成 Paimon Web UI

4.2 流式数仓的血缘关系与数据修复

OPPO Data&AI 统一实时湖仓实践之路

付庆午|OPPO 大数据架构师

议题介绍:

一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务

二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题

三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效

四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练

五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI服务

在阿里云上构建 Flink + Paimon 流式湖仓

翁才智|阿里云智能高级开发工程师,Apache Paimon PPMC,Apache Flink Committer

议题介绍:

一、介绍以 Flink + Paimon 为核心,在阿里云上构建流式湖仓的架构。

二、介绍离线场景下的应用:离线数仓的数据更新与合并需要重算大量数据,成本较高,而 Paimon 的更新能力可以解决这个问题。 介绍如何在阿里云上将基于 MaxCompute 的离线数仓升级为 Flink + Paimon + MaxCompute 的流式湖仓。

三、介绍实时场景下的应用:基于 Flink 的实时数仓虽然能达到秒级延时,但涉及 state 的计算成本较高。如果用户可以接受分钟级延时,可以使用 Paimon 在部分场景下代替 state 相关的运算,从而降低成本。 介绍如何在阿里云上将基于 Flink + Hologres 的实时数仓改为 Flink + Paimon + Hologres 的流式湖仓。

网易基于 Flink+Paimon+Amoro 的流式湖仓实践

周劲松|网易平台开发专家,Amoro Mantainer, Apache Paimon Conrtributor

本次分享将先通过网易在数据湖与数据仓库建设的历史过程和遇到的问题,引出公司对具有流批一体特性的湖仓一体存储方案的需求。然后介绍网易开源湖仓管理平台 Amoro 的定位和核心特性。Paimon 的出现弥补了 Iceberg 在流式湖仓下很多场景的不足,Amoro 集成了 Paimon 并在网易内部基于 Paimon 和 Amoro 在流式湖仓场景进行了大量的业务实践,分享将着重介绍实践案例和带来的业务价值。最后总结并分享未来在研发和实践上的一些规划。分享大致内容:

一、网易湖仓建设背景

二、湖仓管理平台 Amoro

三、Amoro 集成 Paimon

四、Paimon + Amoro 业务实践

五、总结与未来规划

Flink + Paimon + Hologres 湖仓一体数据分析

喻良|阿里云智能高级技术专家

一、传统湖仓库实现方案

二、Flink + Paimon+Hologres 构建湖仓一体数据分析实现方案

2.1 Flink + Paimon 构建数据湖中心

2.2 Hologres 进行查询加速

2.3 Hologres 实现实时数仓

三、Hologres 湖仓一体的技术架构和使用介绍

3.1 介绍 Hologres 湖仓一体的技术架构

3.2 Hologres 加速湖上 Paimon 数据使用介绍

3.3 查询、导入

四、Hologres 湖仓分析未来规划

使用 Paimon+StarRocks 极速批流一体湖仓分析

王日宇|阿里云智能高级开发工程师,StarRocks Committer

议题介绍:

一、Paimon+Starrocks 的各类使用场景介绍

二、使用 Paimon+StarRocks 数据湖分析的技术原理

三、使用 Paimon+StarRocks 构建实时数仓方案介绍

四、Paimon+StarRocks 未来的技术规划

滴滴基于 Flink 在流批一体和数据湖方向的探索和实践

岳猛|滴滴 Flink 引擎负责人,Flink/Hudi/Calcite/ZK Contributor

议题介绍:

滴滴围绕 Flink 进行流批一体和数据湖方向上的技术探索和实践,包括介绍使用 Flink streaming/Batch sql 如何完成流批一体能力的建设以及 Flink + Hudi 在滴滴数据湖场景的技术探索和业务落地等。分享大致内容:

一、为什么要引入流批一体架构

二、基于 Flink 的流批一体的架构的实现

三、流批一体在业务场景的落地

四、Flink & Hudi 技术背景介绍

五、实时入湖建设经验

六、在特征和近实时场景的实践总结

七、流批一体和数据湖技术在滴滴的未来规划

Paimon x Spark:不止于数据入湖

毕 岩|阿里云智能开源大数据平台技术专家

邹欣宇|阿里云智能开源大数据平台开发工程师

议题介绍:

一、Paimon 在 Spark 生态的发展

二、Paimon 在湖仓架构下的典型案例

三、Paimon 通过 Gluten/Volex 加速查询

四、未来规划

基于 Flink&StarRocks 构建新一代数据底座

石强|镜舟科技解决方案架构师

议题介绍:

一、传统 hadoop 数据底座方案的介绍和痛点

二、新数据底座方案的介绍和优势

三、架构升级的预期收益

四、客户案例介绍

五、未来与展望

基于 Flink+Paimon 的大数据平台的建设

张军|广联达数据中台部门担任大数据架构师

议题介绍:

一、背景

  • 为了适应业务的不断发展,公司从传统行业逐渐在做数字化转型,在这个过程中要根据客户的业务场景构建自己的大数据平台,很多业务需要能实时的感知数据变化,以便及时的根据数据的变化做出决策,所以能支持实时的数据变更和处理变得非常重要。所以经过对比,在我们的大数据底座建设过程中,我们选用了 Paimon 作为数据湖存储,使用 Flink 作为流处理的引擎。

二、Flink+Paimon 选型

  • 根据具体的业务场景对大数据架构的存储和计算框架进行选型

三、经典应用场景

四、未来规划

  • 基于 Flink 的 Paimon 批处理查询

  • 提高 Flink 流读 Paimon 的时效性

  • 对 Paimon 持续优化,比如 cache catalog、cache manifest、prefix index 等。

平安证券 Flink+Paimon 的实时架构实践

张 兴|平安证券经纪事业部大数据基础架构负责人

汪超飞|平安证券经纪事业部大数据基础架构工程师

议题介绍:

一、架构介绍

1.1 原有 Flink+HBase 架构介绍

1.2 新的 Flink+Paimon 架构介绍

1.3 新架构带来的变化

二、在开户场景中的实践

2.1 原有任务实现方式介绍

2.2 通过 Flink+Paimon 改造介绍

2.3 架构变化后对业务的提升

快手数据湖在实时场景的建设与实践

钟靓|快手技术专家,Hudi Contributor

议题介绍:

快手数据湖已经在内部开始规模化应用,在时效、资源、效率上均有明显收益。通过数据入湖,在数仓、业务数据范围,打造了新的数据管理架构和生产模式。此次分享内容,主要从典型场景实践出发,讲解技术架构的设计。由三个部分构成:

一、Mysql2Hudi : 实时入湖构建分钟级快照 ods

二、kafka2Hudi : 实时入湖构建动态分区 dwd

三、流批统一:

3.1 样本入湖:搜索、广告、推荐系统训练任务的流批统一

3.2 分层入湖:数仓实时离线任务的流批统一


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
存储 运维 搜索推荐
实时数仓Hologres发展问题之Hologres在无人车送货场景中的应用如何解决
实时数仓Hologres发展问题之Hologres在无人车送货场景中的应用如何解决
49 2
|
3月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
10天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
1月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
360 4
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
236 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
2月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
145 1
|
2月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
247 0
|
4月前
|
SQL 监控 大数据
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化
|
4月前
|
消息中间件 监控 关系型数据库
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
下一篇
DataWorks