一、关于Dataphin
Dataphin 是阿里巴巴十余年内部实践及方法论的产品化输出,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。
二、Dataphin V5.3 版本重点功能概览
01. 超级X全家桶,智能升级、体验升级
- X-数据工程 支持创建逻辑表,自动生成代码
- X-数据标准、X-数据安全 上线,结合表元数据信息,自动推荐字段的数据分类分级与数据标准
- 智能应用反馈看板上线,助力平台管理员基于用户反馈持续丰富语义数据,AI 应用更强大
02. 研发能力持续提升,加速企业数字能力建设
- 支持SelectDB和Doris作为离线计算引擎
- 支持通过SelectDB/Doris/StarRocks 对 Hive和MaxCompute 做查询加速
- 全面支持Paimon格式的数据湖构建,包括离线集成、实时集成、表管理
- 实时集成支持Oracle增全量一体同步、Kafka表级Topic读写,离线集成支持DolphinDB
03. 资产运营与消费提效,增加资产可用性与盘点效率
- 元数据采集支持DolphinDB、GaussDB
- 资产自定义属性支持灵活配置、资产上下架支持审批管理、全资产类型支持批量导入导出
04. 数据服务再升级,易用性显著提升
- 支持大模型API注册,提供流量控制及全链路监控
- 应用升级,支持应用的管理和运维,并可跨项目调用API
三、新版本重点特性详解及应用场景
特性 1:X-数据标准,智能映射加速标准规范落地
背景:
在数据治理的诸多环节中,数据标准的统一与规范是基础。但落标映射的难度随着企业的表越多、标准越多,对治理人员的数据素养以及对公司业务的理解要求就越高,落标映射的难度就越大。因此多数企业都难以贯彻数据标准,导致数据治理效果并不理想。
功能概览:
- 智能抽取,精准映射:AI驱动解析资产元数据、探查结果与样例数据,联动标准定义智能匹配“字段-标准”,大幅降低人工识别负担与错误率;
- 多维视角,清晰易查:支持按照标准视角、表视角汇总展示落标映射结果,也支持按照字段全部展开,通过不同视角聚焦审核,提升审核效率;
- 灵活操作,快速应用:支持一键批量应用或弃用推荐结果,也可以逐一审核操作,弃用后的推荐结果页可重新应用,极大提升治理效率。
特性 2:X-数据安全,分钟级完成字段分类分级识别
背景:
在日益严格的合规要求(如GDPR、CCPA、国内《数据安全法》、《个人信息保护法》)和敏感数据泄露风险日益严峻的背景下,快速、精准识别数据表的分类(如用户信息、交易数据)与分级(敏感等级L1-L4),是企业落实数据安全策略、实现合规管控、保护核心资产免受泄露或滥用的必备工作。
- 存量数据批量治理:合规要求升级,数千张历史表需逐一补充分类分级,且部分宽表包含数百字段,工作量大又耗时长;
- 新系统快速合规接入:每次接入新的业务系统,都需要针对数据表进行分类分级识别,人工审核会拖慢系统接入速率影响业务使用,先接入后分类又存在敏感数据泄露风险。
功能概览:
- 智能识别,精准推荐:结合数据分类定义与数据表DDL元数据,借助 AI 大模型自动推荐字段的数据分类和分级,大幅降低人工识别负担与错误率;
- 灵活操作,快速应用:支持一键批量应用或弃用推荐结果,也可以逐一审核操作,弃用后的推荐结果也可重新应用,极大提升治理效率。
Tips:字段描述和分类描述越完善、识别推荐准确率就越高哦!
特性 3:「智能应用运营管理后台」上线:用户反馈驱动AI 应用持续升级
应用场景:
AI模型的实际表现直接影响业务决策质量与用户体验。上线了新的智能应用却无法得知用户反馈,平台管理员定位不了高频问题、也无法追溯上下文,会让 AI 应用逐渐“失活”。主动收集用户对AI回答的使用评价,并根据反馈及时增加干预措施优化 AI 应用效果,是持续优化智能应用表现、提升业务满意度的关键引擎。
功能概览:
- 用户即时反馈,一键触达:使用 X-数据工程、X-分析、X-Copilot 时,可对模型回答进行:点赞、点踩操作,还可以输入点踩原因,反馈直达应用管理员。
- 后台统一查看反馈记录,驱动资产配置优化:
- 管理员可在【智能应用管理-运营管理-反馈记录】 页面统一查看各模块的赞踩反馈(含评分、原因、时间、用户信息),支持点击查看单条反馈回答详情(如 X-数据工程生成的概念模型、 X-分析生成的分析 SQL ),也可以进入完整对话还原完整上下文具体分析(需在系统对话保存期内);
- 针对点赞记录,管理员可以将其沉淀为范例作为模型思考的范例(如将查询 SQL 添加为分析专辑的示例代码);针对点踩记录,管理员可以分析具体原因后,通过完善资产元数据、调整配置(如增加系统提示词、将通用信息沉淀到企业知识库)等方式提升 Agent 可用性,为用户提供更好的体验。
特性 4:全面支持Paimon格式的数据湖构建
应用场景:
Apache Paimon作为新一代开源数据湖表格式,凭借其强一致ACID事务支持、实时写入能力、高效的Schema管理及原生流批一体架构,已成为企业构建现代化数据架构的关键选择。Dataphin已完成与Paimon的深度集成,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
功能概览:
- 离线链路:离线集成输入、离线集成输出端、表管理、离线研发都已支持Paimon;
- 实时链路:实时集成、实时研发已支持Paimon。
特性 5:使用StarRocks、Doris、SelectDB 对 MaxCompute和Hadoop查询透明加速
背景:
- MaxCompute和Hadoop处理海量数据具备效率高、成本低的特点,但是在即席分析中响应慢、无法满足用户预期,单次查询平均时长不低于30秒; 而StarRocks、Doris、SelectDB的即席查询效率非常高,单次查询平均时长在1秒内,但存储海量数据的成本较高。
- 当前很多客户使用MaxCompute或Hadoop做数仓开发,使用StarRocks等做即席分析。数仓数据生产完成后,需要同步到StarRocks,这种方式有以下不便:
- 数据需要冗余存储两份,浪费存储的同时还可能存在两边数据不一致的问题;
- 两侧的权限各自管理,无法实现统一管控。
功能概览:
- 创建加速源(支持 StarRocks、Doris、SelectDB),配置计算源(MaxCompute)或Hadoop集群(Hadoop)与加速源中外部Catalog的映射关系
- 在即席查询中开启查询加速,可以选择加速源进行加速
- 开启查询加速,使用加速源,原始SQL会被转译为加速源的SQL,通过加速源外部 Catalog 的方式访问Hadoop或MaxCompute中的原始数据,且遵循在 Dataphin 中针对 MaxCompute 和 Hadoop 对象的权限设置。
特性 6:实时集成支持Kafka表级Topic读写
应用场景:
在实时集成场景,利用Kafka做消息中转是构建弹性数据管道的典型方案。当上游业务系统产生突发流量时,Kafka通过持久化日志机制将数据暂存,既能缓冲流量高峰(削峰),又避免数据丢失;下游系统可按自身处理能力异步消费数据(填谷),实现生产与消费的解耦。将所有变更信息写入一个单一的Topic难以精细化数据消费,此时则需根据业务诉求按表划分写入到不同的Topic。
功能概览:
- 实时集成来源端及输出端支持表级别Topic,可根据Topic名称完成表映射;
- 实时集成目标端支持根据来源表自动建表级Topic。
特性 7:灵活属性配置 | 上下架审批管控 | 高效批量更新,驱动企业资产高效管理与运营
应用场景:
- 灵活多变的资产属性配置诉求:例如希望资产的“归口管理部门”属性可选项和组织部门对齐、指标的“看板”属性配置为可点击的超链接一键跳转QBI仪表板、表的“业务运营人员”属性可直接关联系统用户;
- 标准化资产上下架流程管理:数据资产管理员希望按照资产来源和等级拆分不同的上下架审批流程,既能实现针对关键资产(如核心业务指标)的上下架精细管控、又能将审批节点指派到各负责人提升审核效率;
- 批量化资产更新:资产运营管理员希望通过 Excel 梳理好的业务指标口径一次性批量导入系统完成创建,或快速导出系统内最新的资产信息批量分发给对应资产负责人补充完善新增属性信息后再批量导入,摆脱逐条操作的低效困扰。
功能概览:
- 资产自定义属性配置升级:
- 资产自定义属性填写方式新增支持多选、超链接,实现更灵活的业务场景覆盖;
- 针对下拉单选、下拉多选属性,枚举选项来源新增支持引用系统属性(如用户/用户组、主题域、部门)。
-
- 资产上下架审批管理:
- 支持通过规则圈选不同范围的资产,并为每个资产范围独立配置审批流程,实现灵活细致的审批管理;
- 资产上架与下架可分别独立配置审批模版,满足不同场景下的管理需求;
- 针对特定资产或场景,可选择免审批,提升资产流转效率;
- 当对接了三方审批系统时,可自定义资产上下架审批任务的内容详情参数,选择需要传递的资产属性,实现与企业 OA 系统的无缝协同。
-
- 全类型资产批量导入导出:支持全量资产,包括表及字段、业务指标、技术指标、仪表板、API资产的批量导入导出,助力高效完善资产信息。
特性 8:全新支持大模型API注册,提供调用计量、流量控制及全链路监控
应用场景:
企业AI开发团队及大模型的系统运维人员,在大模型API调用管理时有以下核心痛点:
- 资源失控:无法统计调用量、监控API性能及告警;
- 效率瓶颈:缺乏统一入口管理,调用日志分散难以追溯;
- 安全风险:无限流与权限管控机制;
Dataphin的注册大模型API 能力,助力企业实现大模型服务的标准化管理、智能化监控与高效资源调度。
功能概览:
- 统一入口,无缝集成:将大模型API无缝注册至Dataphin,提供标准化Endpoint,兼容流式响应输出;
- 调用全监控,智能预警:实时统计调用量、流量分析,支持限流与告警配置,保障服务稳定性;
- 日志追踪,根因分析:全链路调用日志可视化,快速定位问题,优化模型调用效率;
- 多场景适配,灵活扩展:支持API网关、公共云网关、内置网关适配,并兼顾异步调用与测试环境快速验证,满足复杂业务需求。
特性 9:应用跨项目调用API,管理更轻松
应用场景:
- 多项目API调用需求:业务应用需要同时调用不同数据服务项目下的API时,无需重复创建多个应用,一个应用即可统一管理;
- 资源优化场景:企业希望减少冗余的API密钥(AK/SK)资源消耗,通过集中管理应用降低运维成本。
功能概览:
- 应用访问不同项目的API:支持应用灵活绑定不同数据服务项目下的API,打破项目隔离限制,满足数据调用需求;一个应用即可访问不同项目提供的API,减少重复的应用创建,降低AK/SK密钥管理复杂度。
- 应用管理:
- 自助式应用创建,审批后可创建应用;
- 应用负责人可自主管理成员权限,提供应用删除、成员管理等便捷操作;
- 支持应用运维,查看应用调用分析,及应用调用日志。
四、总结与展望
Dataphin 将持续迭代技术深度与场景覆盖能力,下一版本将推出:X-应用创作(基于数据服务API和语义知识快捷生成应用)、X-数据质量(智能诊断问题根因)、集成支持国产Easysearch、运维补数据任务支持补未来日期、行级权限支持申请、数据服务API支持增删改操作...更多精彩功能,敬请期待!