Dataphin x Iceberg 开箱即用的数据湖治理解决方案

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。

一、概述

随着数据湖技术的快速发展,Apache Iceberg作为新一代开源数据湖表格式,凭借其ACID事务支持、时间旅行、高效Schema演化等核心能力,已成为企业构建现代化数据架构的重要选择。Dataphin作为领先的数据中台产品,已完成与Iceberg的深度集成,通过全链路功能适配性能优化,为企业提供开箱即用的数据湖治理解决方案。

二、核心模块与功能适配

Dataphin x Iceberg 开箱即用的数据湖治理解决方案.png

核心链路


不同引擎的Iceberg适配现状

image.png

1. 数据源支持Iceberg

Iceberg作为新一代数据湖表格式标准,Dataphin通过Hive数据源的多格式适配能力实现兼容。在创建Hive数据源时,只需开启"数据湖表格式"选项即可启用Iceberg支持。对于已启用该功能的数据源,允许用户通过配置Spark。

2. 离线数据集成

在数据离线入湖和出湖场景,离线管道输入、输出组件均完成适配。在数据输入层面,当检测到Iceberg格式的源表时,将自动识别表类型进行读取,确保高效解析Iceberg特有的元数据结构和分区信息。针对输出场景,系统提供便捷的建表能力:用户可直接基于源表结构创建目标Iceberg表,支持通过Hive或Spark引擎进行建表,并且在写入时对Iceberg的隐藏分区特性也进行了支持。

输入组件读取Iceberg表

输出组件写入Iceberg表

3. 实时数据集成

在实时数据入湖场景中,Dataphin的实时集成能力为多源异构数据写入Iceberg提供了灵活高效的解决方案。系统支持从各类主流数据源(如MySQL、Kafka、Oracle等)实时同步数据至Iceberg表,并根据源表结构自动创建目标表,同时支持Hive和Spark两种SQL引擎。

针对目标表类型,Dataphin实现了多种写入策略:当目标表定义为主键表时,系统通过轻量级更新机制实现Upsert操作,有效应对数据变更场景;对于非主键表则采用追加写入模式,保障高吞吐场景下的写入性能。这种动态适配能力既满足了事务性更新需求,又延续了传统数据湖的扩展优势,显著提升了实时数据入湖的灵活性和处理效率。

实时集成写入Iceberg表

4. 离线数据研发

离线研发已全面支持Apache Iceberg表的存储与查询功能,兼容Iceberg SQL语法标准,可无缝对接数据湖与数据仓库场景。

离线研发支持Iceberg

5. 实时数据研发

Iceberg 依赖 Catalog 管理元数据(如 Hive Metastore、Hadoop 本地 Catalog 等),Dataphin实时研发Flink SQL 支持通过配置Hive Catalog 方式操作Iceberg表。

实时研发支持Iceberg

三、结语

未来我们将提供可视化的Iceberg表管理工具。除了Iceberg外,我们还支持了Hudi、Databricks、Paimon(即将推出)等数据湖,欢迎大家前来体验。

目录
打赏
0
0
0
0
345
分享
相关文章
Apache Iceberg数据湖基础
Apache Iceberg 是新一代数据湖表格式,旨在解决传统数据湖(如 Hive)在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎,提供 ACID 事务、模式演化、分区演化等核心特性,具备良好的云存储兼容性和高性能查询能力,适用于大规模结构化数据分析场景。
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
Apache Iceberg数据湖高级特性及性能调优
性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率,结合文件内/间排序优化I/O与压缩,辅以Z-Order实现多维数据聚集。同时,合理配置元数据缓存与清单合并,加速查询规划。适用于点查、全表扫描及高并发写入场景,显著提升系统性能与资源利用率。
Iceberg+Amoro+CloudEon体验云原生数据湖
通过使用CloudEon、Iceberg、Flink、Spark和Amoro,您可以轻松地在Kubernetes上构建一个强大的大数据基础环境。
687 0
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建
535 0
SmartNews 基于 Flink 的 Iceberg 实时数据湖实践
SmartNews 数据平台架构师 Apache Iceberg Contributor 戢清雨,在 Flink Forward Asia 2022 实时湖仓专场的分享。
1650 0
SmartNews 基于 Flink 的 Iceberg 实时数据湖实践
数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比
数据湖作为新一代大数据基础设施,近年来持续火热。在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。本文我们就为大家详细解析不同数据湖架构在数据事务上的能力对比,帮助大家在数据湖选型之路上做出更好的决定。这是「数据湖选型」系列的第一期,后续还将陆续推出,希望大家和我们共同探讨~
1797 0
数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比
5分钟入门数据湖IceBerg
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式成为了大数据、数据湖领域炙手可热的方向。关注公众号:857Hub
1083 0
5分钟入门数据湖IceBerg
在 CDP中使用Iceberg 为数据湖仓增压
我们很高兴地宣布在CDP 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。
在 CDP中使用Iceberg 为数据湖仓增压
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问