Dataphin V3.6版本发布啦!多项能力升级,助力企业提升全链路数据治理能力!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin V3.6版本全新上线概念建模、基线运维、全域数据质量监控、数据标准标准落标映射等核心功能,为企业建设贯穿事前、事中、事后的全链路数据治理能力添砖加瓦,助力提升资产价值。

一、关于Dataphin(智能数据建设与治理)

Dataphin是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

Dataphin支持在多种大数据架构之上构建数据中台,具备一站式数据采、建、管、用全生命周期管理能力,显著提升数据治理水平,在计算引擎利旧降本基础上满足企业多元化数智应用需求,为企业上云用数赋智夯实数字化能力底座。

image.png


二、DataphinV3.6版本概览

01-拓展多引擎、多类型数据源、多消息渠道,满足企业多元化数智应用需求

  • ADB引擎适配:新增适配以AnalyticDB for PostgreSQL作为计算引擎,可支持数据集成、离线&实时数据研发、数据质量、资产安全、数据服务等功能,助力企业构建统一的数据仓库平台。
  • 数据源拓展:新增支持达梦数据源可用于离线集成、提升对国产数据库的支持度;Hive及HDFS的数据源增加EMR版本选择,实时集成输出组件新增支持Hive,增强对Hive数据源的适配度。
  • 自定义消息渠道:支持自定义消息发送渠道,通过配置化的方式实现与阿里云电话&短信、企业自有消息渠道的对接,以接收任务监控、质量监控、数据服务监控等告警信息。

02-贯穿事前规划、事中监控、事后稽核的全链路数据治理能力

  • 概念建模:可视化定义基于实际业务场景抽象出的业务实体及关系,以更好地反映业务之间的联系,并为逻辑模型建设提供依据。
  • 智能基线监控:支持配置天基线,添加需要保障的关键任务或字段后,系统可基于依赖关系自动圈选需要纳入监控范围的任务,同时支持配置灵活的告警规则及接收方式,以降低人工运维成本。
  • 全域数据质量:拓展支持针对多种数据源表的质量监控,内置丰富的质量规则模板,同时支持基于业务场景自定义监控规则,以提升配置灵活性和业务监控覆盖面。
  • 数据标准落标:新增支持批量导入数据标准,提升配置效率;支持基于标准属性和字段元数据进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。

03-研发体验优化,加速企业数字能力建设

  • 编辑器优化:优化报错提示,可快速定位到错误代码行并提示错误原因及修复建议;新增set参数提示,可查看参数的默认值、类型及说明,提升数据开发效率。
  • 集成组件优化:Orcale组件适配特殊字符的处理以减少运行报错,hologres组件支持填写SQL准备及完成语句,hana组件支持小写表名等,降低集成任务配置成本
  • 补数据优化:支持一键过滤下游暂停调度的任务极其全部下游,以保障补数据整体链路可正常执行,减少人工筛选成本
  • 脱敏方式拓展:支持配置底层查询直接过敏或仅展示脱敏,以支持简单的where/join等子查询场景,对业务使用更友好


三、新版本重点特性详解及应用场景示例

特性1:基础研发版支持AnalyticDB PostgreSQL计算引擎

应用场景:构筑可线性扩展的企业数据仓库服务,加速企业数据分析和运营体系搭建

AnalyticDB PostgreSQL强兼容PG/Greenplum开源生态,兼容Oracle/TD语法生态,具备秒级弹性和数据共享等国内领先的产品能力;支持复杂SQL优化、海量数据关联聚合、资源负载管理,可提供PB级企业数据分析服务。

Dataphin基础研发版支持以AnalyticDB PostgreSQL作为计算引擎,用户现有的OLTP数据库实例,如RDS MySQL,PostgreSQL,或传统数据库实例 Oracle,SQL Server等,均可以通过Dataphin的数据集成和调度能力同步到AnalyticDB PostgreSQL;结合数据质量监控、安全分类分级及脱敏配置等功能,打通入库、清洗、分析和洞察的全链路,助力企业构建统一的数据仓库平台,加速面向业务场景的数据分析和运营体系搭建。

image.png

image.png


特性2:概念建模

应用场景: 可视化定义基于实际业务场景抽象出的业务实体及关系,为逻辑模型建设提供依据

主题域层级从1级拓展到最多5级,企业可基于主题域更好的构建资产类目体系,实现数据分层管理。

image.png

新增概念建模能力,在数仓规划及数据架构设计阶段,支持可视化配置基于实际业务场景抽象出的业务实体及其之间的关系,并以实体关系流程图的形式直观展示,有利于数据消费者更好理解数据和数据对应的业务。如制造业中的“原材料采购”场景,可以抽象出“客户、订单、原材料商品、地址”等业务对象,以及“供应商询价、下采购单、财务预付款、供应商发货、到货签收、财务付尾款”等业务活动。

此外,业务实体间的关系类型,在原有关联, 继承, 层级的基础之上, 新增前后序、流转、包含关系, 以便更精确的反映真实业务联系。如:“采购”流程包含“供应商发货”和“到货签收”两个事件,两个事件之间是流转关系,而“采购”是“供应商评审”的后续流程。

image.png

概念模型创建完成后,可基于定义的业务实体快速创建对应的逻辑表,默认继承实体之间的关系并自动翻译为数据表之间的关联逻辑,实现概念模型和逻辑模型的映射,为模型开发提供业务输入和指导。


特性3:基线运维

应用场景:保障核心业务数据的产出任务,及时发现异常并预警,降低对业务用数的影响

1、添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。

配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的上游节点,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。

2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警,便于及时发现异常并处理

可以将需要保障数据的预计产出时间配置为基线的“保障时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。

此外,还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警,便于尽早发现可能出现的异常并处理,保障业务数据能正常产出。

image.png

3、支持查看每条基线的运行详情,如果存在预警或破线的风险,可自动识别定位到关键路径上的关键实例,便于开发运维人员直接处理,减少人工分析定位

image.png

image.png


特性4:数据标准

应用场景:支持标准和资产的映射关联,以作为质量稽核的参考,提升企业资产治理水平。

1、标准属性配置优化,支持批量导入数据标准,提升配置效率。

支持配置属性字段的取值类型(自定义输入、枚举单选、枚举多选)及取值约束,同时也可引用码表作为枚举取值来源,以增强标准定义的规范性。如,指标的“业务分类”属性需要来源于企业的“业务系统”码表、“字段长度”属性的取值范围需要限制在0~128字符等。

支持下载标准定义模板,并通过上传Excel文件方式批量导入数据标准,实现历史标准的批量迁移入库。支持查看导入执行日志;支持配置导入冲突处理策略;支持一键下载异常记录及异常提示,以提升配置效率。

image.png

image.png

2、支持基于标准属性和元数据字段进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。

支持将标准属性和资产元数据进行关联映射配置,实现标准和资产的关联。可以在资产目录查看字段及指标的落标映射结果,以便参考映射到的标准定义进行开发,将数据治理前置到研发链路。针对不满足关联标准的资产,可以尽早进行整改,提升企业整体数字能力建设的标准化成熟和资产的健康度。

image.png

3、支持码表、词根的定义及管理。

码表可用于约束标准属性字段的取值范围,提升标准定义的准确性;词根可作为数据表、字段等研发对象命名的参考依据,提升研发规范性。

image.png


特性5:全域数据质量

应用场景:通过对全域数据表及数据源的监控,将数据质量风险前置,进一步提升资产健康度。

1、支持计算引擎内及多种数据源表的质量监控,支持数据源连通性及表结构异动性监控。

数据质量模块分为域内版和全域版。其中,域内版可以针对计算引擎内的物理表及字段,以及Dataphin特有的逻辑表、指标和实时元表进行质量监控;同时还支持对已创建数据源的连通性以及监控范围内的表结构异动性进行监控。全域版在支持计算引擎内物理表的基础上,还支持10余种数据源的表监控,如MySQL、Oracle、Hana等。结合使用全域版和域内版的功能,能够拓展可监控的资产对象类型,将数据质量风险前置,降低对后续研发链路的影响。

image.png

2、基于DAMA体系内置丰富的质量规则模板,开箱即用;可自定义监控规则并支持配置规则触发方式,以灵活适配多样化的业务需求。

基于DAMA(国际数据资产管理协会)体系,Dataphin质量模块内置完整性、唯一性、及时性、一致性、有效性、稳定性6类场景的系统模版及规则,大大降低使用门槛;支持自定义SQL的方式创建规则模版,以灵活适配多样性的业务需求。此外,支持配置灵活多样的规则触发条件,如定时触发、代码运行触发、任务调度触发等,可满足不同的开发场景。

image.png

3、自动生成质量监控报告,支持查看下载异常数据,可作为质量整改的参考。

image.png

特性6:编辑器优化

应用场景:优化报错及参数自动提示,提升开发效率和使用体验。

1、报错提示优化:支持快速定位到错误代码行并标识错误语句,提示错误原因及修复建议;可自动识别不规范的代码语句,支持一键修复或忽略提醒。

image.png

2、支持set参数提示:提示可选的参数,并支持查看参数的默认值、类型及说明;指定参数后,如有默认值或枚举值,自动提示可选值。

image.png

特性7:实时集成支持增量同步到Hive

应用场景:实时增量从MySQL或Oracle抽取数据同步到Hive

支持批量在Hive目标库自动建表,可自动为目标表添加系统附加字段;支持处理DDL,如新增表、删除表、表结构变更等8种场景;提供预览字段功能,可查看源表与目标表字段的差异对比,减少手动建表操作。支持智能检查目标表规范性及可用性,针对异常结果给出告警、错误等不同等级的提示,将问题前置以降低任务运行错误的可能性。

image.png

此外,新增实时集成任务的提交详情,异常及风险提示一目了然,校验流程透明化。

image.png


特性8:离线集成组件优化

应用场景:适配多种数据源的特殊逻辑及异常处理,提升集成任务配置流畅度。

  • 输入组件,对PostgreSQL、AnalyticDB for PostgreSQL类型的数据源,在使用QuerySQL方式时,支持添加常量字段
  • Hana组件支持小写表名
  • 由于AnalyticDB for PostgreSQL仅支持在建表时指定分区字段,不支持后续添加,因此在整库迁移目标数据源为AnalyticDB for PostgreSQL时,自动添加分区字段,以适配需要创建分区的场景
  • Hologres输出组件支持填写SQL准备语句和完成语句
  • 优化Oracle来源表带有特殊字符(如/)时的处理策略,使离线管道任务能正常运行而无需使用自定义组件,降低配置成本

特性9:补数据支持过滤暂停节点

应用场景:批量选中多层节点进行补数据,可一键过滤暂停节点,避免阻断补数据任务执行。

调度方式为“暂停调度”的任务,生成的补数据实例默认为暂停运行。暂停运行的节点会阻断下游其他实例的运行,此外如果选择了多个补数据业务日期且设置为周期间串行(即并发分租数为1),还会影响后续业务日期实例的执行,阻断整个补数据进程。

基于该背景,Dataphin新增支持在配置补数据任务时,可一键过滤暂停调度的任务极其下游节点。此外某些场景下,暂停调度的任务在补数据对应的业务日期下需要正常参与调度,如每月第一天运行的财务月结算任务,需要在指定的临时结算日期运行。针对这种场景,新增支持配置选中的暂停任务在选中的补数据业务日期的运行方式,可选空跑、正常运行、暂停运行,以灵活适配多样性的业务求。

image.png

特性10:脱敏规则支持配置脱敏方式

应用场景:通过配置查询时不脱敏仅展示脱敏,以支持简单的where/join等条件,对业务使用更友好

数据开发中,常常对一些敏感字段需要配置脱敏规则,以保障数据安全。默认情况下,在整个研发链路中,配置了脱敏规则的数据均使用脱敏后的结果参与计算,会导致where/join等条件不生效的问题,影响业务使用。基于此背景,Dataphin支持针对脱敏规则配置不同的脱敏方式:

  • 底层脱敏在数据被查询时就进行脱敏。SQL的处理过程中,均使用脱敏后的结果处理,能对数据起到更好的保护效果
  • 仅展示脱敏在数据被查询时不进行脱敏,仅在最后对外展示的时候进行脱敏。SQL处理过程中,均使用原文进行处理,因此可以支持简单的where/join等条件,对业务使用更友好。需要注意的是,如果对敏感字段使用UDF处理(如字符串截取),会触发脱敏降级,该字段生成的衍生字段会统一降级为***。

image.png

通过该能力,开发人员可以根据不同的使用场景配置不同的脱敏策略,以更好地适配业务需求,平衡好数据安全性和使用灵活性。


特性11:自定义消息渠道

应用场景:快读对接阿里云电话/短信以及企业自有消息渠道,以获取告警及消息通知

支持实例级别和租户级别的自由配置,不同租户可开启不同的消息渠道。支持快速对接阿里云的电话及短信渠道,或经过简单的参数配置对接企业自由的消息渠道。配置完成后,支持发送测试消息,以快速验证渠道可用性,保证消息可正常发送。

image.png

image.pngimage.png


特性12:跨租户发布配置优化

应用场景:导入导出配置优化,支持对接外部存储系统,发布流程更顺畅

1、导出文件配置优化:

  • 新增可设置“是否导出建表语句”;如设置了导出,可在待发布对象列表下载建表文件
  • 新增支持设置“是否运行下载发布文件
  • 新增支持发布文件外部存储设置(本期支持启用OSS存储),可设置导出完成后“是否自动转存外部存储”,并支持设置同名文件冲突处理策略;若开启外部存储,待发布对象列表可一键转存并查看转存记录

image.png

2、导入数据源校验优化:

  • 按照“数据源名称”进行匹配,如有名称相同的数据源则校验数据源类型,类型一致则认为在目标环境匹配成功
  • 如果未匹配到同名数据源,仅提示风险,不阻断发布(可能导致依赖对应数据源的任务发布失败)


四、总结与展望

本次发布的V3.6版本中,Dataphin围绕数据资产建设、数据资产治理、基础平台等三大功能板块进行了完备性、安全性、研发效率、开放性、稳定性、易用性、可交付性等方面进行了优化和升级。在下一个版本中,我们将持续提升资产建设平台的易用性及可交付性、资产治理平台的完备性以及基本户平台的稳定性和开放性进行迭代,敬请期待!

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
Dataphin功能Tips系列(7)-维表版本策略
在创建普通维度逻辑表和事实逻辑表关联维度时,如何配置维表版本策略?
159 2
|
2月前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1467 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
27天前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
88 1
|
3月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
2月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何从Dataphin使用界面查看版本
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
SQL 运维 数据管理
Dataphin补数据又双叒叕升级了,支持筛选节点类型,支持输入或粘贴节点名称批量补数据
Dataphin 4.0版本针对补数据操作进行了升级,旨在提升用户体验。在面对数据缺失问题时,如某企业因上游系统故障需紧急回刷历史数据,Dataphin提供了按节点类型筛选下游节点的功能,减少了手动操作的错误和时间消耗。对于大规模任务管理,如银行数据中心的历史数据补充,Dataphin支持按照节点名称批量补数据,提高了效率和准确性。此外,还优化了逻辑表补数据的性能,并允许配置超时任务自动重跑,以应对调度高峰。
|
4月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin