活动预告|6月15 日 Apache Paimon Meetup,深入解读 Apache Paimon 0.4.0 !

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 深入解读 Apache Paimon 0.4.0 Meetup,6月15日|线上活动,敬请期待!

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。截止目前已经发布第四个版本 Apache Paimon 0.4.0

深入解读 Apache Paimon 0.4.0 Meetup,6月15日|线上活动,敬请期待!

点击直达直播间

活动亮点

6 月 15 日,在 Apache Paimon Meetup 中,我们特邀请了阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(花名:之信)、字节跳动基础架构工程师李明、同程旅行大数据计算组负责人吴祥平,三位各大行业专家给大家带来主题分享。

本次分享会介绍:

  • Paimon 0.4 已经发布!本次 Meetup 会介绍 Paimon 0.4 的核心能力,用户场景,欢迎大家试用和反馈!
  • 字节在 Paimon 上提供了一个完整的 Streaming Warehouse 一致性视图,本次 Meetup 将会分享字节相关的实践和经验。
  • 来自同程的老师大规模落地了 Paimon,他将会介绍落地 Paimon 的生产实践。

观看直播的小伙伴们还能一起加入到“答疑环节中”跟 3 位大咖在线交流哦!

「直播过程中,同学们可以在评论区踊跃提问,讲师将在分享结束后统一解答。每个议题分享结束后都有 10 分钟的答疑互动环节!」

活动议程

议程

嘉宾及议题介绍

议题一|深入解读 Apache Paimon 流式数据湖 V0.4

嘉宾介绍

李劲松(花名:之信)阿里云开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,Founder of Apache Paimon,PMC member of Apache Flink,Committer of Apache Iceberg & Beam。先后从事分布式流计算、分布式批计算、湖存储,目前专注于流式湖仓一体的技术。

演讲简介

目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store 子项目,目前进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。 Paimon 进入 Apache 孵化器后的三个月,Paimon 社区的活跃度快速增长,共有 60 多位贡献者参与社区,完成了 400 多个 Commits,一位新的 Committer,为社区带来了许多令人兴奋的新功能和改进。Apache Paimon 0.4.0 是进入 Apache 孵化后第一个版本,我们推荐所有用户都升级到这个版本。

  • 数据入湖:CDC 入湖、预计算、Actions

  • 数据流读:实时 Changelog、Consumer ID、有序流读

  • 数据查询:时间旅行、Full-Compaction读取

  • 数据管控:Snapshot 清理、分区自动删除

议题二|基于 Flink & Paimon 实现 StreamingWarehouse 数据一致性管理

嘉宾介绍

李明,字节跳动基础架构工程师。在字节跳动流式计算团队主要从事 Flink 存储相关的工作,Apache Flink&Paimon Contributor。

演讲简介

在 Streaming Warehouse 场景中,我们会根据上下游的数据的依赖关系,级联的创建流式任务产生下游数据,从而构建出一个复杂的数据依赖关系,而由于流式任务是互相独立的,导致血缘关系难以维护,上下游数据版本难以管理,因此我们在进行流式任务管理时,经常会遇到开发成本高、计算结果不一致等问题。本次分享主要介绍基于 Flink&Paimon 进行 Streaming Warehouse 数据版本一致性管理的方案,主要包括以下 5 个内容:

  • 背景:介绍现有的 Streaming Warehouse 中的使用痛点;

  • 设计目标:介绍在 Streaming Warehouse 中进行数据一致性管理需要解决哪些问题;

  • 详细设计:介绍通过 Flink&Paimon 如何建立上下游血缘关系、进行数据一致性版本管理等;

  • 当前进展:介绍目前数据一致性管理的实现进展;

  • 未来规划:介绍在 Streaming Warehouse 场景中的未来规划。

议题三|Apache Paimon 在同程旅行的实践进展

嘉宾介绍

吴祥平,同程旅行大数据计算组负责人。负责同程旅行大数据计算团队,重点工作方向是数据湖的落地和推广应用,很荣幸能参与到数据湖技术贡献中。

演讲简介

介绍 Apache Paimon 在同程旅行的引入,湖场景替换为 Hudi 后的一些成效以及如何与 Hudi 混合过渡,同时介绍在实践过程中遇到的一些写入、读取性能、建表等问题以及解决过程和部分场景下 Paimon 调优实践 最后展望对 Paimon 未来的一些期待,和发展规划。

活动详情

时间:6 月 15 日 14:00

直播观看链接:https://uoi.h5.xeknow.com/sl/GmZHs

扫码直达直播间:

点击直达直播间


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
SQL 关系型数据库 MySQL
297 0
|
4月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
806 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
6月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
401 76
|
7月前
|
安全 Apache 数据库
【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!
5月24日,NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域,邀请行业专家分享技术趋势、产品实践及解决方案,助力企业构建高效安全的数据管理体系。时间:14:00-17:30;地点:深圳新一代产业园2栋20楼会议室。线下名额有限(80人),速报名参与深度交流!
191 1
|
9月前
|
SQL 分布式计算 流计算
官宣|Apache Paimon 1.0 发布公告
官宣|Apache Paimon 1.0 发布公告
582 8
|
9月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
小米基于 Apache Paimon 的流式湖仓实践
232 0
小米基于 Apache Paimon 的流式湖仓实践
|
10月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
本文整理自Flink Forward Asia 2024流式湖仓专场分享,由计算平台软件研发工程师钟宇江主讲。内容涵盖三部分:1)背景介绍,分析当前实时湖仓架构(如Flink + Talos + Iceberg)的痛点,包括高成本、复杂性和存储冗余;2)基于Paimon构建近实时数据湖仓,介绍其LSM存储结构及应用场景,如Partial-Update和Streaming Upsert,显著降低计算和存储成本,简化架构;3)未来展望,探讨Paimon在流计算中的进一步应用及自动化维护服务的建设。
547 0
小米基于 Apache Paimon 的流式湖仓实践
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
406 59
|
存储 数据挖掘 数据处理
巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践
随着数据湖技术的发展,企业纷纷探索其优化潜力。本文分享了巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践。Paimon 支持流式和批处理,提供高性能、统一的数据访问和流批一体的优势。通过示例代码和实践经验,展示了如何高效处理实时数据,解决了数据一致性和故障恢复等挑战。
311 61
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
246 0

推荐镜像

更多