【产品升级】Dataphin V5.3 全新上线:四大能力升级,数据管理更统一、更智能!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: V5.3版本,Dataphin推出众多重磅功能:例如,全新的智能应用:X-数据标准、X-数据安全以及智能应用反馈看板;更前沿的数据研发能力:利用SelectDB/Doris/StarRocks查询加速Hive和MaxCompute的离线引擎、全面支持Paimon格式的数据湖构建;资产运营和数据服务持续提效。

一、关于Dataphin

Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。

二、Dataphin V5.3 版本重点功能概览

01. 超级X全家桶,智能升级、体验升级

  • X-数据工程 支持创建逻辑表,自动生成代码
  • X-数据标准、X-数据安全 上线,结合表元数据信息,自动推荐字段的数据分类分级与数据标准
  • 智能应用反馈看板上线,助力平台管理员基于用户反馈持续丰富语义数据,AI 应用更强大

02. 研发能力持续提升,加速企业数字能力建设

  • 支持SelectDB和Doris作为离线计算引擎
  • 支持通过SelectDB/Doris/StarRocks 对 Hive和MaxCompute 做查询加速
  • 全面支持Paimon格式的数据湖构建,包括离线集成、实时集成、表管理
  • 实时集成支持Oracle增全量一体同步、Kafka表级Topic读写,离线集成支持DolphinDB

03. 资产运营与消费提效,增加资产可用性与盘点效率

  • 元数据采集支持DolphinDB、GaussDB
  • 资产自定义属性支持灵活配置、资产上下架支持审批管理、全资产类型支持批量导入导出

04. 数据服务再升级,易用性显著提升

  • 支持大模型API注册,提供流量控制及全链路监控
  • 应用升级,支持应用的管理和运维,并可跨项目调用API


三、新版本重点特性详解及应用场景

特性 1:X-数据标准,智能映射加速标准规范落地

背景:

在数据治理的诸多环节中,数据标准的统一与规范是基础。但落标映射的难度随着企业的表越多、标准越多,对治理人员的数据素养以及对公司业务的理解要求就越高,落标映射的难度就越大。因此多数企业都难以贯彻数据标准,导致数据治理效果并不理想。

功能概览:

  1. 智能抽取,精准映射:AI驱动解析资产元数据、探查结果与样例数据,联动标准定义智能匹配“字段-标准”,大幅降低人工识别负担与错误率;
  2. 多维视角,清晰易查:支持按照标准视角、表视角汇总展示落标映射结果,也支持按照字段全部展开,通过不同视角聚焦审核,提升审核效率;
  3. 灵活操作,快速应用:支持一键批量应用或弃用推荐结果,也可以逐一审核操作,弃用后的推荐结果页可重新应用,极大提升治理效率。

特性 2:X-数据安全,分钟级完成字段分类分级识别

背景:

在日益严格的合规要求(如GDPR、CCPA、国内《数据安全法》、《个人信息保护法》)和敏感数据泄露风险日益严峻的背景下,快速、精准识别数据表的分类(如用户信息、交易数据)与分级(敏感等级L1-L4),是企业落实数据安全策略、实现合规管控、保护核心资产免受泄露或滥用的必备工作。

  1. 存量数据批量治理:合规要求升级,数千张历史表需逐一补充分类分级,且部分宽表包含数百字段,工作量大又耗时长;
  2. 新系统快速合规接入:每次接入新的业务系统,都需要针对数据表进行分类分级识别,人工审核会拖慢系统接入速率影响业务使用,先接入后分类又存在敏感数据泄露风险。

功能概览:

  1. 智能识别,精准推荐:结合数据分类定义与数据表DDL元数据,借助 AI 大模型自动推荐字段的数据分类和分级,大幅降低人工识别负担与错误率;
  2. 灵活操作,快速应用:支持一键批量应用或弃用推荐结果,也可以逐一审核操作,弃用后的推荐结果也可重新应用,极大提升治理效率。

Tips:字段描述和分类描述越完善、识别推荐准确率就越高哦!

特性 3:「智能应用运营管理后台」上线:用户反馈驱动AI 应用持续升级

应用场景:

AI模型的实际表现直接影响业务决策质量与用户体验。上线了新的智能应用却无法得知用户反馈,平台管理员定位不了高频问题、也无法追溯上下文,会让 AI 应用逐渐“失活”。主动收集用户对AI回答的使用评价,并根据反馈及时增加干预措施优化 AI 应用效果,是持续优化智能应用表现、提升业务满意度的关键引擎。

功能概览:

  1. 用户即时反馈,一键触达:使用 X-数据工程、X-分析、X-Copilot 时,可对模型回答进行:点赞、点踩操作,还可以输入点踩原因,反馈直达应用管理员。
  2. 后台统一查看反馈记录,驱动资产配置优化:
  1. 管理员可在【智能应用管理-运营管理-反馈记录】 页面统一查看各模块的赞踩反馈(含评分、原因、时间、用户信息),支持点击查看单条反馈回答详情(如 X-数据工程生成的概念模型、 X-分析生成的分析 SQL ),也可以进入完整对话还原完整上下文具体分析(需在系统对话保存期内);
  2. 针对点赞记录,管理员可以将其沉淀为范例作为模型思考的范例(如将查询 SQL 添加为分析专辑的示例代码);针对点踩记录,管理员可以分析具体原因后,通过完善资产元数据、调整配置(如增加系统提示词、将通用信息沉淀到企业知识库)等方式提升 Agent 可用性,为用户提供更好的体验。

特性 4:全面支持Paimon格式的数据湖构建

应用场景:

Apache Paimon作为新一代开源数据湖表格式,凭借其强一致ACID事务支持实时写入能力高效的Schema管理原生流批一体架构,已成为企业构建现代化数据架构的关键选择。Dataphin已完成与Paimon的深度集成,通过全链路功能适配性能优化,为企业提供开箱即用的数据湖治理解决方案。

功能概览:

  1. 离线链路:离线集成输入、离线集成输出端、表管理、离线研发都已支持Paimon;
  2. 实时链路:实时集成、实时研发已支持Paimon。



特性 5:使用StarRocks、Doris、SelectDB 对 MaxCompute和Hadoop查询透明加速

背景:

  1. MaxCompute和Hadoop处理海量数据具备效率高、成本低的特点,但是在即席分析中响应慢、无法满足用户预期,单次查询平均时长不低于30秒; 而StarRocks、Doris、SelectDB的即席查询效率非常高,单次查询平均时长在1秒内,但存储海量数据的成本较高。
  2. 当前很多客户使用MaxCompute或Hadoop做数仓开发,使用StarRocks等做即席分析。数仓数据生产完成后,需要同步到StarRocks,这种方式有以下不便:
  • 数据需要冗余存储两份,浪费存储的同时还可能存在两边数据不一致的问题;
  • 两侧的权限各自管理,无法实现统一管控。

功能概览:

  1. 创建加速源(支持 StarRocks、Doris、SelectDB),配置计算源(MaxCompute)或Hadoop集群(Hadoop)与加速源中外部Catalog的映射关系

  2. 在即席查询中开启查询加速,可以选择加速源进行加速

  3. 开启查询加速,使用加速源,原始SQL会被转译为加速源的SQL,通过加速源外部 Catalog 的方式访问Hadoop或MaxCompute中的原始数据,且遵循在 Dataphin 中针对 MaxCompute 和 Hadoop 对象的权限设置。

特性 6:实时集成支持Kafka表级Topic读写

应用场景:

在实时集成场景,利用Kafka做消息中转是构建弹性数据管道的典型方案。当上游业务系统产生突发流量时,Kafka通过持久化日志机制将数据暂存,既能缓冲流量高峰(削峰),又避免数据丢失;下游系统可按自身处理能力异步消费数据(填谷),实现生产与消费的解耦。将所有变更信息写入一个单一的Topic难以精细化数据消费,此时则需根据业务诉求按表划分写入到不同的Topic。

功能概览:

  1. 实时集成来源端及输出端支持表级别Topic,可根据Topic名称完成表映射;
  2. 实时集成目标端支持根据来源表自动建表级Topic。


特性 7:灵活属性配置 | 上下架审批管控 | 高效批量更新,驱动企业资产高效管理与运营

应用场景:

  1. 灵活多变的资产属性配置诉求:例如希望资产的“归口管理部门”属性可选项和组织部门对齐、指标的“看板”属性配置为可点击的超链接一键跳转QBI仪表板、表的“业务运营人员”属性可直接关联系统用户;
  2. 标准化资产上下架流程管理:数据资产管理员希望按照资产来源和等级拆分不同的上下架审批流程,既能实现针对关键资产(如核心业务指标)的上下架精细管控、又能将审批节点指派到各负责人提升审核效率;
  3. 批量化资产更新:资产运营管理员希望通过 Excel 梳理好的业务指标口径一次性批量导入系统完成创建,或快速导出系统内最新的资产信息批量分发给对应资产负责人补充完善新增属性信息后再批量导入,摆脱逐条操作的低效困扰。

功能概览:

  1. 资产自定义属性配置升级:
  • 资产自定义属性填写方式新增支持多选、超链接,实现更灵活的业务场景覆盖;
  • 针对下拉单选、下拉多选属性,枚举选项来源新增支持引用系统属性(如用户/用户组、主题域、部门)。
  1.      
  2. 资产上下架审批管理:
  • 支持通过规则圈选不同范围的资产,并为每个资产范围独立配置审批流程,实现灵活细致的审批管理;
  • 资产上架与下架可分别独立配置审批模版,满足不同场景下的管理需求;
  • 针对特定资产或场景,可选择免审批,提升资产流转效率;

  • 当对接了三方审批系统时,可自定义资产上下架审批任务的内容详情参数,选择需要传递的资产属性,实现与企业 OA 系统的无缝协同。

  1. 全类型资产批量导入导出:支持全量资产,包括表及字段、业务指标、技术指标、仪表板、API资产的批量导入导出,助力高效完善资产信息。

特性 8:全新支持大模型API注册,提供调用计量、流量控制及全链路监控

应用场景:

企业AI开发团队及大模型的系统运维人员,在大模型API调用管理时有以下核心痛点:

  • 资源失控:无法统计调用量、监控API性能及告警;
  • 效率瓶颈:缺乏统一入口管理,调用日志分散难以追溯;
  • 安全风险无限流与权限管控机制;

Dataphin的注册大模型API 能力,助力企业实现大模型服务的标准化管理、智能化监控与高效资源调度

功能概览:

  1. 统一入口,无缝集成:将大模型API无缝注册至Dataphin,提供标准化Endpoint,兼容流式响应输出;
  2. 调用全监控,智能预警:实时统计调用量、流量分析,支持限流与告警配置,保障服务稳定性;
  3. 日志追踪,根因分析:全链路调用日志可视化,快速定位问题,优化模型调用效率;
  4. 多场景适配,灵活扩展:支持API网关、公共云网关、内置网关适配,并兼顾异步调用与测试环境快速验证,满足复杂业务需求。


特性 9:应用跨项目调用API,管理更轻松

应用场景:

  • 多项目API调用需求:业务应用需要同时调用不同数据服务项目下的API时,无需重复创建多个应用,一个应用即可统一管理;
  • 资源优化场景:企业希望减少冗余的API密钥(AK/SK)资源消耗,通过集中管理应用降低运维成本。

功能概览:

  • 应用访问不同项目的API:支持应用灵活绑定不同数据服务项目下的API,打破项目隔离限制,满足数据调用需求;一个应用即可访问不同项目提供的API,减少重复的应用创建,降低AK/SK密钥管理复杂度。
  • 应用管理
  • 自助式应用创建,审批后可创建应用;
  • 应用负责人可自主管理成员权限,提供应用删除、成员管理等便捷操作;
  • 支持应用运维,查看应用调用分析,及应用调用日志。


四、总结与展望

Dataphin 将持续迭代技术深度与场景覆盖能力,下一版本将推出:X-应用创作(基于数据服务API和语义知识快捷生成应用)X-数据质量(智能诊断问题根因)集成支持国产Easysearch运维补数据任务支持补未来日期行级权限支持申请数据服务API支持增删改操作...更多精彩功能,敬请期待!


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
4月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
461 0
|
8月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
3月前
|
SQL 数据管理 API
【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
363 9
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
741 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
7月前
|
SQL 调度
如何基于Dataphin智能研发开发“留存率”指标
用户留存率是指在互联网行业中,某段时间内新增用户中,在后续特定时间点或时间段内继续使用应用的用户比例。它是衡量应用质量和用户保留能力的重要指标。 本文为您介绍如何基于Dataphin规范建模结合SQL加工能力进行留存率指标开发。
225 11
|
10月前
Dataphin免费试用指南
为您提供Dataphin快速上手操作指南,一起轻松构建数据
628 67
|
11月前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
1032 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
|
SQL 运维 API
Dataphin(智能数据建设与治理)V3.13版本升级速览
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
730 2
|
运维 算法 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力
564 1

热门文章

最新文章