直播地址:https://developer.aliyun.com/live/250011
9月3日下午13:30,飞天club 与 StreamNative 联合举办 Lakehouse Meetup,邀请阿里巴巴、StreamNative 的 4 位技术专家一起探讨数据湖仓解决方案。具体议程如下:
01
毕岩(寻径)| 阿里巴巴技术专家
《基于数据湖格式构建数据湖仓架构》
- 解析数据湖仓架构关键特性,并简述三个数据湖格式。
- 结合 Delta Lake 和 Hudi,分享阿里云 EMR 在经典数仓场景的使用案例。
- 最后介绍阿里云 EMR+DLF 提供的整体数据湖仓解决方案。
02
陈航 | StreamNative 高级工程师
《APACHE PULSAR 的湖仓一体方案:PULSAR 的 LAKEHOUSE 分层存储集成详解》
Apache Pulsar 是一种用于缓存数据并在不同系统之间解耦的消息总线。为了支持长期的主题数据存储,我们引入了分层存储,将冷数据卸载到分层存储中,例如 GCS、S3、HDFS 等。但是,当前卸载的数据是由 Pulsar 管理的非开放格式数据,是原始的数据格式,且只有 Pulsar 可以访问数据。因此很难将其与其他大数据组件集成,例如 Presto、Flink SQL 和 Spark SQL。为了解决这个问题,我们引入了 Lakehouse 来管理卸载数据,并与当前的主题冷数据卸载机制集成。我们可以使用 Lakehouse 提供的所有功能,例如事务支持、Schema 强制和 BI 支持等。我们会根据数据位置从 BookKeeper 或分层存储中读取数据,进行流数据读取。由于 Lakehouse 的开放存储格式,我们可以支持 Lakehouse 所维持的各种生态系统读取数据。为了支持流卸载并使卸载机制更具可扩展性,我们引入了按 reader 卸载机制来从主题中读取数据并写入分层存储。此外,我们还可以通过 offloader 提供压缩服务后端,并将主题作为表。键的每个更新操作都被转换为表的 upsert 操作。
03
陈玉兆(玉兆)| 阿里巴巴技术专家
《Apache Hudi 实时湖仓解决方案》
- 基于 Hudi 的数仓解决方案
- Hudi 的核心场景
- 使用 Hudi 构建 Pulsar 分级存储
- 近期 Roadmap
04
张勇 | StreamNative 软件工程师
《整合 PULSAR 和 LAKEHOUSE 数据:使用 CONNECTOR 将 PULSAR TOPIC 中的数据 SINK 到 LAKEHOUSE STORAGE》
我们可能会使用不同的系统来处理不同应用场景中的流数据,在这些系统间整合数据可能会存在问题。本演讲将聚焦于 Lakehouse Connector,讨论如何使用此工具将 Pulsar Topic 中的数据 Sink 至 Lakehouse。