Dataphin x Paimon 开箱即用的数据湖治理解决方案

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。

一、概述

随着数据湖技术的持续演进,Apache Paimon作为新一代开源数据湖表格式,凭借其强一致ACID事务支持实时写入能力高效的Schema管理原生流批一体架构,已成为企业构建现代化数据架构的关键选择。Dataphin作为领先的数据中台产品,已完成与Paimon的深度集成,通过全链路功能适配性能优化,为企业提供开箱即用的数据湖治理解决方案。

二、核心模块与功能适配

Dataphin x Paimon 开箱即用的数据湖治理解决方案.png

核心链路

1. 数据源支持Paimon

Paimon作为新一代数据湖表格式,Dataphin通过Hive数据源的多格式适配能力实现兼容。在创建Hive数据源时,只需开启"数据湖表格式"选项即可启用Paimon支持。对于已启用Paimon的数据源,用户需配置Spark。

数据源配置Paimon

2. 离线数据集成

在数据离线入湖和出湖场景,离线管道输入、输出组件均完成适配。在数据输入层面,当检测到Paimon格式的源表时,将自动识别表类型进行读取,确保高效解析Paimon特有的元数据结构和分区信息。针对输出场景,系统提供便捷的建表能力:用户可直接基于源表结构创建目标Paimon表,支持通过Spark引擎进行建表。

输入组件读取Paimon表

输出组件写入Paimon表

3. 实时数据集成

在实时数据入湖场景中,Dataphin的实时集成能力为多源异构数据写入Iceberg提供了灵活高效的解决方案。系统支持从各类主流数据源(如MySQL、Kafka、Oracle等)实时同步数据至Paimon表,并根据源表结构自动创建目标表,支持Spark SQL建表引擎。

针对目标表类型,Dataphin实现了多种写入策略:当目标表定义为主键表时,系统通过轻量级更新机制实现Upsert操作,有效应对数据变更场景;对于非主键表则采用追加写入模式,保障高吞吐场景下的写入性能。这种动态适配能力既满足了事务性更新需求,又延续了传统数据湖的扩展优势,显著提升了实时数据入湖的灵活性和处理效率。

实时集成写入Paimon表

4. 离线数据研发

离线研发已全面支持Apache Paimon表的存储与查询功能,兼容Paimon SQL语法标准,可无缝对接数据湖与数据仓库场景。

表管理支持Paimon

离线研发支持Paimon

5. 实时数据研发

实时研发支持Paimon

三、结语

Dataphin主流数据湖都已完成支持,欢迎大家前来体验。

相关文章
|
1月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
147 0
|
2月前
|
存储 分布式计算 数据库
数据湖技术选型指南:Iceberg vs Delta Lake vs Paimon
对比当前最主流的三种开源湖格式:Iceberg、Delta Lake 和 Paimon,深入分析它们的差异,帮助大家更好地进行技术选型。
654 4
|
4月前
|
存储 SQL 测试技术
抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。
495 0
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
741 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
226 0
|
4月前
|
SQL 安全 BI
Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
454 0
|
11月前
|
SQL 存储 分布式计算
Paimon助力数据湖仓架构实时化升级
本次分享由阿里云高级技术专家李劲松介绍Paimon助力数据湖仓架构实时化升级。内容涵盖四个部分:1) 数据架构的存储演进,介绍Data LakeHouse结合的优势;2) Paimon实时数据湖,强调其批流一体和高效处理能力;3) 数据湖的实时流式处理,展示Paimon在时效性提升上的应用;4) 数据湖非结构化处理,介绍Paimon对非结构化数据的支持及AI集成。Paimon通过优化存储格式和引入LSM技术,实现了更高效的实时数据处理和查询性能,广泛应用于阿里巴巴内部及各大公司,未来将进一步支持AI相关功能。
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
581 1
|
9月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
11月前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。

热门文章

最新文章