Dataphin全链路集成Paimon实现实时离线数据湖开发-开发者社区-阿里云

Dataphin x Paimon 开箱即用的数据湖治理解决方案

2025-09-23 562

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Dataphin深度集成Apache Paimon，通过全链路功能适配和性能优化，为企业提供开箱即用的数据湖治理解决方案。

一、概述

随着数据湖技术的持续演进，Apache Paimon作为新一代开源数据湖表格式，凭借其强一致ACID事务支持、实时写入能力、高效的Schema管理及原生流批一体架构，已成为企业构建现代化数据架构的关键选择。Dataphin作为领先的数据中台产品，已完成与Paimon的深度集成，通过全链路功能适配和性能优化，为企业提供开箱即用的数据湖治理解决方案。

二、核心模块与功能适配

Dataphin x Paimon 开箱即用的数据湖治理解决方案.png

核心链路

1. 数据源支持Paimon

Paimon作为新一代数据湖表格式，Dataphin通过Hive数据源的多格式适配能力实现兼容。在创建Hive数据源时，只需开启"数据湖表格式"选项即可启用Paimon支持。对于已启用Paimon的数据源，用户需配置Spark。

数据源配置Paimon

2. 离线数据集成

在数据离线入湖和出湖场景，离线管道输入、输出组件均完成适配。在数据输入层面，当检测到Paimon格式的源表时，将自动识别表类型进行读取，确保高效解析Paimon特有的元数据结构和分区信息。针对输出场景，系统提供便捷的建表能力：用户可直接基于源表结构创建目标Paimon表，支持通过Spark引擎进行建表。

输入组件读取Paimon表

输出组件写入Paimon表

3. 实时数据集成

在实时数据入湖场景中，Dataphin的实时集成能力为多源异构数据写入Iceberg提供了灵活高效的解决方案。系统支持从各类主流数据源（如MySQL、Kafka、Oracle等）实时同步数据至Paimon表，并根据源表结构自动创建目标表，支持Spark SQL建表引擎。

针对目标表类型，Dataphin实现了多种写入策略：当目标表定义为主键表时，系统通过轻量级更新机制实现Upsert操作，有效应对数据变更场景；对于非主键表则采用追加写入模式，保障高吞吐场景下的写入性能。这种动态适配能力既满足了事务性更新需求，又延续了传统数据湖的扩展优势，显著提升了实时数据入湖的灵活性和处理效率。

实时集成写入Paimon表

4. 离线数据研发

离线研发已全面支持Apache Paimon表的存储与查询功能，兼容Paimon SQL语法标准，可无缝对接数据湖与数据仓库场景。

表管理支持Paimon

离线研发支持Paimon

5. 实时数据研发

实时研发支持Paimon

三、结语

Dataphin主流数据湖都已完成支持，欢迎大家前来体验。

Dataphin x Paimon 开箱即用的数据湖治理解决方案

一、概述