活动预约|9.3 Lakehouse Meetup

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 9月3日下午 13:30 开始,一起探讨数据湖仓解决方案。

image.png


直播地址:https://developer.aliyun.com/live/250011


9月3日下午13:30,飞天club 与 StreamNative 联合举办 Lakehouse Meetup,邀请阿里巴巴、StreamNative 的 4 位技术专家一起探讨数据湖仓解决方案。具体议程如下:


01

毕岩(寻径)| 阿里巴巴技术专家


《基于数据湖格式构建数据湖仓架构》


  • 解析数据湖仓架构关键特性,并简述三个数据湖格式。
  • 结合 Delta Lake 和 Hudi,分享阿里云 EMR 在经典数仓场景的使用案例。
  • 最后介绍阿里云 EMR+DLF 提供的整体数据湖仓解决方案。



02

陈航 | StreamNative 高级工程师


《APACHE PULSAR 的湖仓一体方案:PULSAR 的 LAKEHOUSE 分层存储集成详解》


Apache Pulsar 是一种用于缓存数据并在不同系统之间解耦的消息总线。为了支持长期的主题数据存储,我们引入了分层存储,将冷数据卸载到分层存储中,例如 GCS、S3、HDFS 等。但是,当前卸载的数据是由 Pulsar 管理的非开放格式数据,是原始的数据格式,且只有 Pulsar 可以访问数据。因此很难将其与其他大数据组件集成,例如 Presto、Flink SQL 和 Spark SQL。为了解决这个问题,我们引入了 Lakehouse 来管理卸载数据,并与当前的主题冷数据卸载机制集成。我们可以使用 Lakehouse 提供的所有功能,例如事务支持、Schema 强制和 BI 支持等。我们会根据数据位置从 BookKeeper 或分层存储中读取数据,进行流数据读取。由于 Lakehouse 的开放存储格式,我们可以支持 Lakehouse 所维持的各种生态系统读取数据。为了支持流卸载并使卸载机制更具可扩展性,我们引入了按 reader 卸载机制来从主题中读取数据并写入分层存储。此外,我们还可以通过 offloader 提供压缩服务后端,并将主题作为表。键的每个更新操作都被转换为表的 upsert 操作。



03

陈玉兆(玉兆)| 阿里巴巴技术专家


《Apache Hudi 实时湖仓解决方案》


  • 基于 Hudi 的数仓解决方案
  • Hudi 的核心场景
  • 使用 Hudi 构建 Pulsar 分级存储
  • 近期 Roadmap



04

张勇 | StreamNative 软件工程师


《整合 PULSAR 和 LAKEHOUSE 数据:使用 CONNECTOR 将 PULSAR TOPIC 中的数据 SINK 到 LAKEHOUSE STORAGE》


我们可能会使用不同的系统来处理不同应用场景中的流数据,在这些系统间整合数据可能会存在问题。本演讲将聚焦于 Lakehouse Connector,讨论如何使用此工具将 Pulsar Topic 中的数据 Sink 至 Lakehouse。


议程.png


直播地址:https://developer.aliyun.com/live/250011

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
4月前
|
人工智能 Cloud Native 数据处理
Flink全新周边正式上线!议题征集正在进行中!
Flink Forward Asia 2024 将于 11 月 29 日至 30 日在上海举办,现正征集议题。参与者可通过官网或二维码提交议题或报名参会,享受早鸟优惠,并有机会获得精美周边。这是了解 Flink 最新动态、分享生产实践经验及交流技术成果的重要平台。议题涵盖流式湖仓、流批一体、Data+AI 等多个方向,欢迎开发者和数据领域从业者踊跃参与,共襄行业盛会!
120 18
Flink全新周边正式上线!议题征集正在进行中!
|
6月前
|
存储 分布式计算 数据挖掘
活动预告|8月3日 Streaming Lakehouse Meetup · Online 与你相约!
Apache Paimon & StarRocks, 强强联合, 打造极速湖仓解决方案。8月3日14:00, 大咖云集, 包括Apache Paimon PMC, 阿里云, 饿了么等, 分享最佳实践与技术原理。预约直播, 不容错过!
199 12
活动预告|8月3日 Streaming Lakehouse Meetup · Online 与你相约!
|
6月前
|
存储 人工智能 数据管理
预约报名|RAG实践营——智能数据管理专题沙龙·成都站
立即报名,抢占现场参会名额,与各位大咖面对面探讨技术创新与应用模式!
117 9
|
8月前
|
存储 分布式计算 大数据
活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!
5月16日 Streaming Lakehouse Meetup · Online 与你相约!
369 1
活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!
|
存储 SQL 分布式计算
活动预告|7月29日 Streaming Lakehouse Meetup·北京站
Streaming Lakehouse 首个 Meetup 来啦! 7 月 29 日 | 北京 | 线下,来一场 Streaming Lakehouse 实时数据湖的体验之旅!
808 0
活动预告|7月29日 Streaming Lakehouse Meetup·北京站
|
大数据 Apache 数据库
与创新者同行!Apache Doris 首届线下峰会即将开启,最新议程公开!|即刻预约
身为技术从业者,我们无比庆幸生于这个时代,无比推崇冯·诺依曼、图灵和乔布斯,也无比致敬这些创新者们为世界带来的变化。而时代的洪流滚滚向前,我们也期待能与更多的创新者携手,共同为数据世界带来些改变,这也是我们今年 Doris Summit Asia 2023 的主题——“与创新者同行”。
|
Apache 流计算
专家老师带教!现场答疑!阿里云实时计算 Flink 版线下训练营北京站来啦!
阿里云实时计算 Flink 版线下训练营北京站来啦!专家老师现场教学,真实还原实时计算业务和实时数仓场景,现场有机会领取 Flink 最新周边礼包!
628 0
专家老师带教!现场答疑!阿里云实时计算 Flink 版线下训练营北京站来啦!
|
Apache 流计算
5 小时玩转阿里云 Flink 实时湖仓,速速报名!
5 小时玩转阿里云 Flink 实时湖仓!阿里云 Flink 专家与传智教育高级顾问联合出品,真实还原实时计算业务和实时数仓场景!
1093 0
5 小时玩转阿里云 Flink 实时湖仓,速速报名!
《ClickHouse中国开发者和用户沙龙》活动现场及线上直播预约火热进行中!
ClickHouse如何帮助企业实现降本提效?在海量数据场景下ClickHouse如何落地实践?阿里云ClickHouse产品如何更好的上手及应用? 3月25日,我们不见不散!
《ClickHouse中国开发者和用户沙龙》活动现场及线上直播预约火热进行中!
|
存储 数据采集 运维