活动预告|6月15 日 Apache Paimon Meetup,深入解读 Apache Paimon 0.4.0 !

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 深入解读 Apache Paimon 0.4.0 Meetup,6月15日|线上活动,敬请期待!

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。截止目前已经发布第四个版本 Apache Paimon 0.4.0

深入解读 Apache Paimon 0.4.0 Meetup,6月15日|线上活动,敬请期待!

点击直达直播间

活动亮点

6 月 15 日,在 Apache Paimon Meetup 中,我们特邀请了阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(花名:之信)、字节跳动基础架构工程师李明、同程旅行大数据计算组负责人吴祥平,三位各大行业专家给大家带来主题分享。

本次分享会介绍:

  • Paimon 0.4 已经发布!本次 Meetup 会介绍 Paimon 0.4 的核心能力,用户场景,欢迎大家试用和反馈!
  • 字节在 Paimon 上提供了一个完整的 Streaming Warehouse 一致性视图,本次 Meetup 将会分享字节相关的实践和经验。
  • 来自同程的老师大规模落地了 Paimon,他将会介绍落地 Paimon 的生产实践。

观看直播的小伙伴们还能一起加入到“答疑环节中”跟 3 位大咖在线交流哦!

「直播过程中,同学们可以在评论区踊跃提问,讲师将在分享结束后统一解答。每个议题分享结束后都有 10 分钟的答疑互动环节!」

活动议程

议程

嘉宾及议题介绍

议题一|深入解读 Apache Paimon 流式数据湖 V0.4

嘉宾介绍

李劲松(花名:之信)阿里云开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,Founder of Apache Paimon,PMC member of Apache Flink,Committer of Apache Iceberg & Beam。先后从事分布式流计算、分布式批计算、湖存储,目前专注于流式湖仓一体的技术。

演讲简介

目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store 子项目,目前进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。 Paimon 进入 Apache 孵化器后的三个月,Paimon 社区的活跃度快速增长,共有 60 多位贡献者参与社区,完成了 400 多个 Commits,一位新的 Committer,为社区带来了许多令人兴奋的新功能和改进。Apache Paimon 0.4.0 是进入 Apache 孵化后第一个版本,我们推荐所有用户都升级到这个版本。

  • 数据入湖:CDC 入湖、预计算、Actions

  • 数据流读:实时 Changelog、Consumer ID、有序流读

  • 数据查询:时间旅行、Full-Compaction读取

  • 数据管控:Snapshot 清理、分区自动删除

议题二|基于 Flink & Paimon 实现 StreamingWarehouse 数据一致性管理

嘉宾介绍

李明,字节跳动基础架构工程师。在字节跳动流式计算团队主要从事 Flink 存储相关的工作,Apache Flink&Paimon Contributor。

演讲简介

在 Streaming Warehouse 场景中,我们会根据上下游的数据的依赖关系,级联的创建流式任务产生下游数据,从而构建出一个复杂的数据依赖关系,而由于流式任务是互相独立的,导致血缘关系难以维护,上下游数据版本难以管理,因此我们在进行流式任务管理时,经常会遇到开发成本高、计算结果不一致等问题。本次分享主要介绍基于 Flink&Paimon 进行 Streaming Warehouse 数据版本一致性管理的方案,主要包括以下 5 个内容:

  • 背景:介绍现有的 Streaming Warehouse 中的使用痛点;

  • 设计目标:介绍在 Streaming Warehouse 中进行数据一致性管理需要解决哪些问题;

  • 详细设计:介绍通过 Flink&Paimon 如何建立上下游血缘关系、进行数据一致性版本管理等;

  • 当前进展:介绍目前数据一致性管理的实现进展;

  • 未来规划:介绍在 Streaming Warehouse 场景中的未来规划。

议题三|Apache Paimon 在同程旅行的实践进展

嘉宾介绍

吴祥平,同程旅行大数据计算组负责人。负责同程旅行大数据计算团队,重点工作方向是数据湖的落地和推广应用,很荣幸能参与到数据湖技术贡献中。

演讲简介

介绍 Apache Paimon 在同程旅行的引入,湖场景替换为 Hudi 后的一些成效以及如何与 Hudi 混合过渡,同时介绍在实践过程中遇到的一些写入、读取性能、建表等问题以及解决过程和部分场景下 Paimon 调优实践 最后展望对 Paimon 未来的一些期待,和发展规划。

活动详情

时间:6 月 15 日 14:00

直播观看链接:https://uoi.h5.xeknow.com/sl/GmZHs

扫码直达直播间:

点击直达直播间


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
8天前
|
存储 数据挖掘 数据处理
巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践
随着数据湖技术的发展,企业纷纷探索其优化潜力。本文分享了巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践。Paimon 支持流式和批处理,提供高性能、统一的数据访问和流批一体的优势。通过示例代码和实践经验,展示了如何高效处理实时数据,解决了数据一致性和故障恢复等挑战。
89 61
|
8天前
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
62 3
|
25天前
|
存储 数据挖掘 数据处理
Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析
【10月更文挑战第8天】随着数据湖技术的发展,越来越多企业开始利用这一技术优化数据处理。Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析。本文分享了巴别时代在构建基于 Paimon 的 Streaming Lakehouse 的探索和实践经验,包括示例代码和实际应用中的优势与挑战。
49 1
|
3月前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17610 13
Apache Paimon V0.9最新进展
|
22天前
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
47 0
|
4月前
|
存储 运维 关系型数据库
探索 Apache Paimon 在阿里智能引擎的应用场景
本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。
25059 34
探索 Apache Paimon 在阿里智能引擎的应用场景
|
4月前
|
存储 缓存 Apache
Apache Paimon 在蚂蚁的应用
本文整理自 Apache Paimon Committer 闵文俊老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享。Apache Paimon 是一种实时数据湖格式,设计用于流批一体处理,支持实时更新和OLAP查询。它采用LSM Tree结构,提供多种Changelog Producer和Merge Engine,支持高效的数据合并。Paimon适用于流读、批读及时间旅行查询,与多种查询引擎兼容。在蚂蚁集团的应用中,Paimon降低了资源开销,提升了查询性能,简化了研发流程,特别是在去重、核对场景和离线查询加速方面表现突出。
560 7
Apache Paimon 在蚂蚁的应用
|
3月前
|
存储 数据挖掘 数据处理
【破晓数据湖新时代!】巴别时代揭秘:Apache Paimon 打造 Streaming Lakehouse 的神奇之旅!
【8月更文挑战第9天】随着数据湖技术的发展,企业积极探索优化数据处理的新途径。Apache Paimon 作为一款高性能数据湖框架,支持流式与批处理,适用于实时数据分析。本文分享巴别时代使用 Paimon 构建 Streaming Lakehouse 的实践经验。Paimon 统一了数据存储与查询方式,对构建实时数据管道极具价值。
216 3
|
3月前
|
存储 运维 数据处理
Apache Paimon:重塑阿里智能引擎数据处理新纪元,解锁高效存储与实时分析潜能!
【8月更文挑战第2天】探索 Apache Paimon 在阿里智能引擎的应用场景
202 2
|
4月前
|
SQL Apache 流计算
Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手册(二)
为大家介绍 Lakehouse 使用手册(二)之 Apache Doris + Apache Paimon 搭建指南。

推荐镜像

更多