Dataphin V5.4发布:拥有「最强大脑」的数据治理平台,究竟智能在哪儿?

简介: Dataphin V5.4发布,升级集成、治理、安全与运维能力。支持API/FTP增强、多源数据接入、智能质量分析、外部血缘注册、增删改API、行级权限申请及资源监控,助力企业高效构建标准化数据体系,释放数据价值。

关于Dataphin

Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。

关于Dataphin  V5.4

您是否曾设想,一个理想的数据平台应该是什么模样?

它应该足够强大,能轻松应对从API、FTP到各类数据源的复杂集成;它应该足够智能,能主动发现数据隐患并给出药方;它更应该足够贴心,让权限申请、资源监控、数据操作都像日常对话一样简单。

现在,这个理想的模样已清晰可见。

近日,Dataphin V5.4 正式登场,旨在成为您团队中无所不能拥有[最强大脑]的数据治理平台。 本次更新,我们围绕“集成、治理、安全、运维”四大核心场景,为您带来一系列重磅能力升级!

新版本重点特性详解及应用场景如下

特性1:API组件升级:新增支持多个签名函数以及支持自定义签名串

背景:

在 ToB/ToG 多场景 API 集成过程中,不同合作方的接口签名规则存在显著差异 —— 部分场景需特定加密算法保障数据安全,部分场景要求灵活配置参数分隔符、键值连接符以适配个性化签名格式,传统 API 组件固定的签名逻辑和有限的算法支持,难以满足多样化对接需求,导致用户在集成不同来源 API 时需额外开发适配代码,效率低下且易出错。

功能概览:

1. 支持自定义参数分隔符、建值连接符

2. 签名函数新增支持SHA1HEX、SHA256、SHA256HEX、SHA512HEX、HMAC_SHA512

3. 支持自定义签名串,通过“#{param}”方式引用参数,支持通过“@”可触发参数提示

 

特性2:FTP 组件升级:支持tar.gz 解压 、压缩包下文件筛选以及JSONL文件读取

背景:

在企业数据集成场景中,FTP 作为常用文件传输工具,常需处理 tar.gz、zip 等压缩包文件。过去 FTP 组件仅支持基础文件传输,缺乏压缩包直接解压能力,需用户额外手动处理;并且面对压缩包内海量文件时,无法精准筛选目标文件,导致数据处理效率低下;在文件类型上缺乏对JSONL 格式支持,一般需借助第三方工具转换,增加了数据集成的复杂度与成本。

功能概览:

1. 支持读取tar.gz压缩格式的文件

2. 当压缩格式为tar.gz、zip格式时,支持配置文件匹配规则筛选压缩包下的文件

3. 支持读取JSONL格式的文本数据,按行读取文本中的JSON数据

特性3:数据源扩展:离线集成、实时集成数据源扩展

背景:

为满足企业对国产化适配、数据库新版本及湖表流读的需求,扩展离线与实时集成数据源,新增并优化多类核心引擎支持。

功能概览:

1. 离线集成:输入输出组件支持Easysearch(国产化适配)、适配Hudi-1.0.2、人大金仓(国产化适配)特殊类型支持

2. 实时集成:来源端自持MySQL8.4.4(适配特殊语法)、PolarDB-MySQL(全新支持)、Hudi(全新支持,单湖表流读)

   

特性4:X-数据质量,智能分析质量问题并推荐整改建议

背景:

在数据治理的实际工作中,数据质量问题不仅影响数据的准确性和可信度,还直接影响业务分析和决策的可靠性。传统治理方式主要依赖人工异常排查,面对复杂的数据血缘关系和庞大的数据体量,难以及时发现质量缺陷、精准定位问题根因和高效完成整改,导致治理效率低下。

功能概览:

1. 问题分析,根因追溯:依托AI驱动自动分析数据质量异常,层层深入查找问题根因,实现质量问题的精准溯源定位。

2. 数据支撑,证据确凿:智能采样数据、解析数据血缘,构建问题分析证据链,为根因推断和决策提供有力数据依据。

3. 整改建议,报告闭环:基于根因分析和证据链,自动生成质量问题整改建议及影响评估,形成完整质量报告,实现治理流程闭环。

特性5:支持注册外部血缘关系

背景:

血缘关系是追溯数据来源、分析影响范围及资产价值的关键依据。当前大部分数据开发与治理平台的血缘关系仅支持基于任务自动解析或手动配置,无法覆盖外部系统的血缘信息,导致数据血缘存在断层。亟需实现外部系统血缘的批量导入和灵活配置,补全端(first mile ETL)到端(last mile BI)的血缘关系。

功能概览:

1. 支持通过OpenAPI注册表级、字段级血缘关系

2. 支持通过OpenAPI删除表级、字段级血缘关系

特性6:支持增删改的数据操作类API

场景:

在数字化转型和智能化升级的浪潮中,企业对数据驱动能力的需求日益增长。为了帮助企业更高效、安全地管理和利用数据,Dataphin 5.4 版本推出了全新的增删改 API 功能,让开发团队能够以更低的成本和更短的时间将数据库中的数据转化为可管理且安全的 API 接口。

● AI 编程与智能应用:快速为智能助手、自动化脚本或微服务提供结构化数据接口,简化API编程和数据应用中的数据接入工作,减少定制开发成本。支持实时或批量的数据读取/写回,确保数据访问的安全性和可追溯性。

● 数据集成与ETL:轻松构建用于数据迁移、同步或集成的增删改 API,实现不同系统间的数据流转。支持参数化查询与批量操作,简化定时任务与数据流水线的开发和维护,提高数据处理效率。

● 内部工具与业务中台:为后台管理系统、运营工具、BI 报表及移动端应用快速生成标准化的 CRUD 接口,缩短前后端联调周期。通过配置实现字段映射、输入校验与数据变换,提高一致性和安全性。

● 低代码/无代码与快速原型:非技术人员也能通过简单配置生成所需的数据 API,加速原型验证与业务流程自动化落地。自动生成详细的 API 文档、示例请求及返回结构定义,降低使用门槛。

借助 Dataphin 5.4 的新增删改 API 功能,企业可以更加高效地管理和利用数据资源,加速业务创新与发展,充分释放数据的价值。

功能概览:

1. 可视化创建:通过直观易用的界面,用户无需编写代码即可快速创建增删改 API,大大降低了技术门槛。

2. 参数校验与默认值填充:自动进行参数校验并填充默认值,确保数据的完整性和合法性。

3. 批量操作:支持单条和批量数据操作,性能更优,满足大规模数据处理需求。

4. 事务控制:灵活选择单事务、无事务或分批独立事务模式,保证数据的一致性和可靠性。

5. 错误处理与详细反馈:提供详尽的错误处理机制,支持部分成功和全部成功的选项,并返回具体的成功和失败记录,便于问题排查。

6. 性能优化:针对不同数据量和并发情况自动优化性能,如批量操作时自动调整 JDBC 连接设置。

7. 权限管理:支持 API 级别的权限申请,保障数据安全,目前暂不支持行级权限。

8. 多种数据源支持:兼容 MySQL、Oracle、Microsoft SQL Server 和 PostgreSQL 等主流数据库,满足多样化的企业需求。

特性7:行级权限支持申请

当前问题:

分析师在取数时发现,编写的SQL在执行后总是返回空数据。一番查找后,发现自己所查询的表命中了行级权限,系统自动添加了Where语句。在之前的版本中,分析师只能找管理员进行授权,无法自行申请。

功能概览:

1. 清晰可见:代码开发者能清晰知道自己所查询的哪张表开启了行级权限、命中什么行级权限规则;

2. 操作简便:支持用户一键申请字段权限+行级权限,也支持单独申请行级权限。

特性8:支持查看注册调度集群的资源消耗趋势

场景:

Dataphin支持通过注册调度集群连接其余网络中的数据源,从而避免任务调度需要跨网络传输数据。为了高效分配和管理任务资源,集群管理员期望可以看见整个集群和不同资源组的资源消耗趋势。

功能概览:

1. 界面配置:支持界面配置注册调度集群的Prometheus HTTP API和认证方式;

2. 灵活操作和指标丰富:支持将注册调度集群设置为默认展示集群,支持查看集群下不同资源组的资源消耗趋势。

--使用须知:需要提前在注册调度集群中安装Prometheus组件

Dataphin 将持续迭代技术深度与场景覆盖能力,更多精彩功能,敬请期待!

相关文章
|
数据采集 分布式计算 监控
DataX教程(03)- 源码解读(超详细版)
DataX教程(03)- 源码解读(超详细版)
4273 0
DataX教程(03)- 源码解读(超详细版)
|
4月前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
865 14
手把手教你搞定大数据上云:数据迁移的全流程解析
|
6月前
|
存储 JSON 数据挖掘
京东商品评论接口技术实现:从接口分析到数据挖掘全方案
本文详解京东商品评论接口技术实现,涵盖参数构造、反爬应对、数据解析与分析等核心问题,提供合规高效的数据采集方案,并严格遵循平台规则与数据规范,适用于市场分析与产品优化。
|
4月前
|
SQL 存储 运维
从 OpenSearch 到 Apache Doris:领创集团日志系统升级实践,降本 45
随着业务全球化扩展与数字化运营的深入推进,日志系统的规模和复杂度不断攀升,原有基于 OpenSearch 的日志平台逐渐难以满足成本控制、性能保障和可维护性等多维需求。为应对持续增长的数据压力和更灵活的分析场景,领创集团技术团队启动了日志系统的架构升级实践,并最终选择 Apache Doris 作为新一代日志系统的核心。实现了综合成本下降超 45%、查询性能提升 5 倍、日志写入达到准实时以及灵活的运维策略等一系列显著收益。
220 4
|
12月前
|
SQL 分布式计算 数据挖掘
智能数据建设与治理 Dataphin 评测报告
本文详细记录了测试开发工程师“宏哥”对阿里巴巴云产品Dataphin的评测体验。Dataphin是一款基于OneData数据治理方法论的企业级数据中台工具,提供数据采集、建模、管理与应用的全生命周期能力。评测从开通试用、环境准备、项目创建到任务开发、周期补数据、即席分析及数据分析等多个环节展开。宏哥按照官方手册完成了数据处理全流程,但也指出了一些问题:如部分操作步骤不够清晰、新手友好数不足(例如SQL脚本编写难度)、以及业务流程逻辑需进一步优化。整体来看,Dataphin在数据同步、周期补数据和即席分析等方面表现出色,但用户体验和学习成本仍有提升空间。
347 8
|
12月前
|
SQL 分布式计算 监控
Dataphin 评测报告
作为一名数据开发工程师,我有幸体验了阿里云的Dataphin工具。它提供一站式数据生命周期管理,涵盖采集、建模、治理到使用全流程,显著提升效率。开通试用简单友好,离线管道任务开发通过可视化拖拽组件降低门槛,SQL计算任务实用但调度依赖配置稍复杂。补数据功能出色,即席分析准确,数据分析可视化直观。优点包括全流程覆盖、易用性强、灵活性高;改进建议涉及文档优化、模板丰富度和性能监控增强。总之,Dataphin是构建企业级数据中台的理想选择,值得尝试!
|
4月前
|
人工智能 测试技术
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。
207 8
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
|
4月前
|
人工智能 数据挖掘 关系型数据库
内附原文|VLDB论文精读:AI进行时,数据分析迈入增量计算时代
阿里云AnalyticDB团队近期在VLDB 2025上发表了关于增量计算的最新研究成果——论文《Streaming View: An Efficient Data Processing Engine for Modern Real-time Data Warehouse of Alibaba Cloud》。本文将对该工作进行简要介绍。
|
10月前
|
弹性计算 Kubernetes 调度
Dataphin V5.0:调度资源支持弹性伸缩,有效提升资源利用率
Dataphin在5.0版本新增“调度资源弹性伸缩”功能,通过设置资源组的Min(保障资源)和Max(上限资源),优化资源共享逻辑,提升集群资源利用率。方案涵盖三种资源分配场景,并支持查看实时使用量。
286 16

热门文章

最新文章