【产品升级】Dataphin V5.1版本发布:跨云数据集成、指标管理、平台运维带来重大更新!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。

image.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。  


一、Dataphin V5.1 版本升级功能点

01- 拓展 AWS 生态,适配AWS计算引擎及数据源

  • 引擎适配:支持AWS EMR作为离线计算引擎
  • 数据源:离线集成、数据服务、全域质量、元数据采集支持Amazon Redshift以及Amazon RDS

02- 强化研发技术支撑,加速企业数字能力建设

  • API数据源支持OAuth2.0认证及自定义签名认证,满足多样化数据接入诉求
  • 增全量一体实时同步支持任务运行隔离,可灵活按照表级别控制同步任务
  • 支持租户级任务运维,打破项目壁垒,你关心的任务尽在手中

03- 完善运营消费链路,完整呈现从需求到实现的全过程

  • 新增“业务指标”管理,助力指标清晰定义和理解一致
  • 新增“指标关系图”让复杂计算逻辑变“透明”

04- 平台综合能力提升,增强平台可扩展性及稳定性

  • 支持自定义系统菜单,构建企业级统一门户
  • 全新升级模式,调度停止时间从3小时缩短至15分钟


二、新版本重点特性详解及应用场景示例

特性 1:对接AWS生态,支持Amazon EMR、Amazon Redshift、Amazon RDS

应用场景:

面向中国出海的企业

  1. 使用Amazon EMR 作为离线计算引擎的客户
  2. 未使用Amazon EMR作为计算引擎,但数据存储在Amazon,可使用Dataphin接入Amazon数据源

功能概览:

  1. 支持AWS云上部署
  2. 支持使用 Amazon EMR 作为离线计算引擎
  3. 支持Amazon Redshift、Amazon RDS for PostgreSQL/MySQL/SQL Server/Oracle/DB2数据源
  4. 功能范围:离线集成、数据服务、全域质量、元数据采集


特性 2:新增“业务指标”管理,助力指标清晰定义和理解一致

应用场景

  1. 从分析需求管理角度:面向业务分析与数据开发人员,业务指标通过标准化管理双向赋能:既作为需求表达载体助力业务人员结构化输出,又通过系统化落地帮助开发人员精准对接需求,从而降低沟通成本、减少开发误差,实现全链路提效。
  2. 从指标查找使用角度:面向资产管理人员(尤其业务侧),基于业务-技术指标的关联体系,可快速了解需求的开发实现与拆解逻辑,沉淀场景化分析知识,助力业务人员快速定位关键指标、驱动精准决策。

功能概览:

业务指标管理能力通过标准化和系统化的方式,在平台上充当业务人员与技术人员的桥梁,确保指标的清晰定义和理解一致,以提高数据分析效率和决策准确性,促进团队协作,减少偏差,增强数据驱动能力。

  1. 支持业务指标定义,包括:名称、指标口径、归属目录、自定义属性、使用说明等信息;支持配置业务指标的可见权限;支持编辑、手动上架/暂不上架、删除等完整的上架管理操作
  2. 支持添加“相关业务指标”,从而可以按场景快速聚合相关指标,并在查询时进行关联推荐

  1. 支持为业务指标添加关联的技术指标,也支持在编辑技术指标信息时添加关联的业务指标

  1. 支持在前台按目录查看业务指标列表与详情、支持混合检索业务指标与技术指标


特性 3:“指标关系图”让复杂计算逻辑变“透明”

应用场景

  1. 业务异常根因分析:核心指标波动时(如月活用户环比下跌15%),业务分析师可通过关系图逐层下钻拆解(MAU→DAU→新增用户/留存率→关键行为转化节点),快速定位异常环节(如某渠道注册流程断裂导致新增锐减),及时给出策略调整建议有效支撑业务。
  2. 指标口径变更推演:业务口径调整时(如复购率计算新增支付成功条件),通过关系图透视指标逻辑层级(复购率→用户购买次数→订单支付状态),明确需同步修改的派生指标(如有效复购率),规避口径迭代风险。

功能概览:

  1. 开发模块创建指标/原子指标时,新增“指标口径”定义:对于衍生原子指标/衍生指标,可通过@快速引用其他指标便于规范化配置

  1. 技术指标上架配置,可开启“指标关系图”的展示,并根据需要选择是否隐藏 SQL 计算逻辑(可一定程度上对敏感指标进行保护)

  1. 技术指标详情可查看“指标关系图”:以可视化的方式清晰地展示指标按照开发逻辑一步步往下拆解的依赖关系,如:衍生指标-->派生指标-->衍生原子指标-->原子指标,便于了解指标的生成过程、加工逻辑,提高数据透明度和可解释性
  1. 开发逻辑透视:逐层展示指标加工规则(聚合/关联/计算逻辑),消除"黑盒计算"隐患
  2. 业务价值传递:用流程图替代技术文档,让运营人员直观理解"会员复购率"等复杂指标的业务构成要素


特性 4:支持自定义系统菜单,构建企业级统一门户

应用场景:面向企业管理员,支持通过自定义系统菜单的方式,在Dataphin的菜单中嵌入企业其余门户的URL。

功能概览:

  1. 支持创建菜单分组,或在已有系统菜单的分组中通过iframe的方式嵌入外部系统的URL;
  2. 支持对嵌入的菜单进行权限管控,灵活控制每个角色的菜单,默认仅超级管理员和系统管理员可查看自定义菜单。


特性 5:全新升级模式,调度停止时间从3小时缩短至15分钟

应用场景:在之前的升级模式中,存在如下不便:

  1. 升级前需要停止掉所有正在运行的任务,同时暂定任务的调度,对于小时任务多的用户存在较大影响;
  2. 系统升级时,产品界面展示404、503错误码,容易造成歧义。

功能概览:

  1. 升级期间提供维护界面,清晰告知用户当前系统处于维护状态;
  2. 正在运行的任务无需终止,且大额缩减调度停服时间,仅需停止15分钟;
  3. 缩短产品不可用时长,仅需维护40分钟

补充说明:

  1. 仅V5.1.1及以后的版本升级到更高版本时可用新版升级模式;
  2. 推出实例运维工具—Dataphin Manager,邀请有自主运维诉求的用户进行自主升级。


特性 6:数据标注“码表”支持直接引用已有表快速创建,一键同步码值数据

应用场景

  1. 码表通常在数仓系统中以“维表”的形式存在,针对已经存在的维表,能否快速将其作为码表使用呢?
  2. 针对主数据系统梳理好的核心表,希望可以快速引用创建为码表,从而保证核心数据的一致性和数据更新时效性,无需重复创建

功能概览:

  1. 码表定义方式新增“从表引入”:支持引用有 select 权限的计算源/已通过元数据采集任务采集到的数据源表作为来源,一键获取指定范围的数据快速创建对应的码表;支持添加过滤条件仅获取需要的数据。

  1. 创建完成后,如有数据更新,可基于引用配置一键更新码值、或手动编辑已获取的码值数据,便于灵活管理。


特性 7:API数据源及管道组件升级,适配多样化认证的API

应用场景:

出于安全合规及业务场景多样化的考量,与企业级 ERP 系统如聚水潭、金蝶等进行 API 对接时,传统静态 Token 及基础认证方式(如固定密钥、简单用户名密码)已难以满足复杂的数据交互安全需求。这类静态认证模式存在明显安全短板,容易在传输过程中被截获、伪造或因系统漏洞泄露。

为了让客户能够更安全的接入API数据,Dataphin5.1支持了两种新的API认证方式。

  1. 一种是基于 OAuth 2.0的动态授权机制,授权服务器验证通过后,颁发短期有效的 Access Token,用于 API 请求认证;
  2. 一种是请求签名认证,通过对每一次 API 请求的关键参数进行加密签名,确保数据完整性与防抵赖性。

功能概览:

  1. API数据源支持OAuth2.0认证,支持API调用时动态获取Token
  2. API输入及输出组件支持支持自定义签名规则,支持根据时间戳、随机数及请求参数使用MD5HEX和HMAC系列函数生成动态签名

 


特性 8:增全量一体新增Hudi入湖支持,并支持表级全量任务运维

应用场景:

  1. 增全量一体任务中,若重新运行单表的全量任务将导致所有表的实时增量任务暂停
  2. 对于实时增量集成的场景是不友好且低效的,可能会增大数据延迟,影响下游业务消费

功能概览:

  1. 支持多表运行隔离,单表运行发生变更不再影响其他表
  2. 增全量一体新增支持MySQL到Hudi,目前增全量一体支持的数据湖有:Databricks、Hudi、MaxCompute Delta


特性 9:租户级统一运维,运维不再分项目隔离

应用场景:

在v5.1版本之前,Dataphin的运维按照项目做了隔离,带来了大量的不便利:

  1. 运维界面操作任务(如: 批量修改优先级),须切换至任务所属项目,频繁切换导致体验下降
  2. 根据任务ID搜索任务,须明确知道其所属项目,否则须逐个切换项目尝试

功能概览:

  1. 运维合并项目,项目作为统一列表的筛选项和展示项


  1. 支持查看同一个依赖路径上任意两个节点间的运行甘特图,帮助评估耗时分布,定位瓶颈问题


  1. 支持修改实例优先级;支持下载实例列表(支持下载筛选结果)


三、总结与展望

下个版本中,Dataphin 将在智能化、国际化时区、Iceberg数据湖、API行级权限、批量补数据等方面进行支持,更多精彩功能,敬请期待!

相关文章
|
10天前
|
运维 监控 安全
打怪升级不是梦!运维也能靠“游戏化”高效运转?试试看就知道了!
打怪升级不是梦!运维也能靠“游戏化”高效运转?试试看就知道了!
33 1
|
4天前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
95 0
|
2月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
86 5
|
2月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
63 5
|
2月前
|
运维 监控
Dataphin V5.0:增全量一体实时集成
数据集成中,离线与实时方式各有优劣。为解决传统“全量+增量”双轨模式运维复杂的问题,Dataphin 5.0推出“全量+增量一体化实时同步”功能。用户仅需创建一个实时任务,即可完成整库或多表的数据迁移,系统自动协调全量与增量同步,简化管理并降低运维成本。该功能支持灵活配置启动范围与方式,提供实时监控及操作能力,大幅提升数据同步效率与稳定性。
140 41
|
1月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
2月前
|
存储 分布式计算 供应链
Dataphin功能Tips系列(51)-支持增全量一体实时集成
本文介绍了基于增全量一体实时集成的库存管理与分析解决方案。通过将业务中台的库存表同步至MaxCompute Delta表,实现离线与实时分析的统一支持。相比传统方案,该方法确保数据一致性,优化存储成本,降低维护复杂度,并大幅提升实时性,满足高效库存管理需求。
92 5
|
4月前
|
存储 人工智能 关系型数据库
云数据库是什么数据库?
云数据库是部署在云计算环境中的数据库服务,用户无需自行搭建硬件和软件环境,通过互联网即可便捷使用。相比传统数据库,云数据库降低了成本和使用门槛,具备强大的扩展性和灵活性,支持多种数据存储模型,并借鉴了关系型数据库的特性如ACID事务处理。它能够应对海量数据和高并发访问需求,适应数字化时代的挑战,未来还将融合更多新技术,进一步提升其功能和应用范围。
266 2
|
11月前
|
运维 数据库 数据库管理
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现
111 3
|
11月前
|
Oracle 数据管理 关系型数据库
云数据库问题之云计算的普及化对中国数据库厂商的全球化发展有什么影响
云数据库问题之云计算的普及化对中国数据库厂商的全球化发展有什么影响
116 2

热门文章

最新文章