Dataphin(数据建设与治理)V3.12版本升级详情

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本次发布的V3.12 版本中,核心重点能力主要有 支持 StarRocks计算引擎适配;部署去除OSS/Ceph等存储依赖;分析平台支持query任务;质量分,数据标准结构升级支持标准模板,批量导入导出;实时研发支持等Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表等在下一个版本中,将支持自定义消息渠道,支持质量知识库,标准、安全支持跨租户发布,分析平台支持手工表等功能,还有很多其他新增能力与功能升级,敬请期待。

一、关于Dataphin(智能数据建设与治理)

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。



二、Dataphin V3.12 版本升级功能点

01- 一站式数据汇聚处理,降低中台建设起步成本

  • 多平台多引擎适配:实时研发适配华为FusionInsight引擎;
  • 多数据源支持:新增支持Salesforce数据源

02-研发体验优化,加速企业数字能力建设

  • 离线集成:运行日志结构化,报错信息智能解析;新增提交详情,前置生产环境运行风险项
  • 实时研发:Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表;支持将实时任务从vvp平台一键迁移至Dataphin;实时任务支持按savepoint灵活启停;开源Flink引擎下新增支持读写目标端,升级多个Connector;
  • 规范建模:业务限定支持在不同业务日期区间使用不同的计算逻辑
  • 调度:支持设置固定间隔时间的分钟调度;支持灵活设置跨不同调度周期(如: 天依赖小时,天依赖分钟)依赖的依赖策略
  • 运维:支持小时/分钟任务配置未完成告警;支持实例列表按照定时运行时间排序;
  • 标签:标签视图适配复杂加工链路

03-数据治理能力提升,保障企业数据质量与安全

  • 标准:结构升级,拆分标准集与标准模板,减少重复定义;批量导入导出优化,操作更便捷
  • 质量:质量支持质量分,评估全局质量情况和进行质量排行,有针对性的进行质量提升;质量支持跨租户发布,一键监控生产租户数据
  • 安全:资产支持表最高数据分级概念,协助用户在资产查找、权限审计等场景判断数据敏感性;跨项目严格模式和生产环境严格模式支持按照项目配置

04-数据运营体系完善,助力企业最大化数据资产价值

  • 分析平台:支持查询结果可视化
  • 数据服务:新增服务编排;标签与服务融合;服务单元增加描述字段;
  • 资产目录:支持数据探查,快速了解数据概貌,更早识别潜在风险


三、新版本重点特性详解及应用场景示例


特性1:Dataphin智能数据平台StarRocks版

应用场景:

Dataphin智能数据平台版,旨在面向工业、零售客户,提供轻量级一体化的数据存储、计算、研发、管理及消费的平台,让企业以低启动成本、低运维成本、低使用门槛下启动企业的数据采建管用体系建设。

功能概览:

  • 源自Dataphin的能力
  1. 功能全:一站式数据集成、研发、调度、数据治理及资产运营平台
  2. 稳定性:千万级调度、行业头部客户的认可、专业运维服务团队
  3. 开放性:开放集成能力、可扩展兼容多引擎

  • 源自StarRocks的能力
  1. 查询速度:向量化引擎及新一代CBO,查询速度超同类产品
  2. 实时数仓:支持kafka等多种数据导入、实时更新、聚合表及物化视图
  3. 湖仓一体:Hudi等外表极速查询、MySQL等联邦查询
  4. 架构简单,运维成本低

特性2:标签视图适配复杂加工链路

应用场景:

用于配置标签的离线视图及行为关系可能来源于其他项目的复杂加工,并且需要手动调整上游的依赖,根据依赖启动调度加工标签数据。

功能概览:

与Dataphin的代码研发一样,标签离线视图及行为关系可支持自动依赖解析,根据数据血缘关系检测上游的依赖。当然,如果自动依赖解析还未检测出需要的依赖,比如需要增加校验数据产出状态的节点,则可通过手动调整依赖构建正确的依赖关系图,避免过早起调,造成数据错误。

特性3:隐私计算上线联邦学习画布工作台

应用场景:

两个跨主体企业,在数据不出域情况下,期望联合两方数据特征/样本,共同训练一个联合模型。

功能概览:

联邦学习画布工作台,支持拖拉拽组件方式,一站式搭建【数据读取、特征分析、训练、预测、评估】工作流,降低联邦学习使用门槛;内置42个联邦学习组件,支持XGBOOST、逻辑回归、线性回归、MLP等常用算法,支持二分类、多分类、回归场景,能满足线索评级、金融评分卡、营销CTR/CVR等场景模型开发。


特性4:分析平台新增SQL查询任务,支持数据结果可视化

应用场景:

企业中的BI或数据分析师,希望能便捷地查询数据,然后快速便捷地对数据进行一些可视化操作。

功能概览:

分析平台新增SQL查询任务类型,支持查询结果可视化,包括线图、条形图、柱状图和饼图。支持分享代码、查询数据与可视化结果给指定成员查看。


特性5:服务编排

应用场景:

某航空企业数据部负责人需要将已有的乘客信息、航班信息、中转信息三个接口的数据进行整合并返回给前端应用展示,前端应用只需调用一次即可获取所有信息。

功能概览:


通过编写脚本的方式,实现一个请求依次调用多个API,并对每个API的返回结果做数据处理后统一返回。语法支持AviatorScript 5.0版本,编写完脚本后支持解析脚本,校验语法和引用的子API;支持配置组合API请求参数和子API请求参数的映射关系,将组合API的入参值传给子API的请求参数进行调用。对于调用者,无需多次调用API和对数据进行整合处理,这部分处理工作前置到API开发者去实现;对于API开发者,可以复用已有API的取数逻辑,无需重复编写取数逻辑。


特性6:服务与标签融合,复用数据服务的功能,在数据服务平台实现标签在线服务的开发和管理

应用场景:

客户同时购买标签和服务功能模块,在标签平台创建标签并开启在线服务后,查询用户标签画像信息时调用数据服务的标签接口,将标签结果返回。

功能概览:

标签平台调用服务提供的RPC接口,创建标签专用项目,并在标签开启在线服务时,调用RPC接口在数据服务平台创建标签在线服务。通过RPC创建的标签服务,只能在标签平台通过修改标签计算逻辑来更新服务的取数逻辑,保证标签与服务两边取数逻辑的一致性。对于标签平台,可以直接复用服务已有的功能,专注于标签业务功能。对于数据服务平台,可以作为统一的数据出口。


特性7:实时研发支持无需创建元表,Flink SQL访问MySQL、Hologres、MaxCompute数据源中的表

应用场景:

  1. 某企业采用MySQL作为业务数据库,库中有100多张表,希望不需要手动创建元表,一次性导入库中所有的表;
  2. 某企业有多个Hive集群,为了引用hive物理表,需要建很多计算源和很多项目,再一一绑定,然后跨项目引用的方式去使用(dml),操作比较繁琐

功能概览:

数据源新增数据源编码,配置数据源编码后,可在Flink SQL任务中通过数据源编码.table或数据源编码.schema.table的格式引用MySQL、Hologres和MaxCompute数据源中的表。


特性8:实时研发开源Flink引擎下新增支持读写目标端,升级多个Connector

应用场景:

  1. 某企业需要对实时流数据进行分析和生成报告,消息队列Kafka作为数据传输的中间层,将实时数据传输到Hive。
  2. 某企业希望构建湖仓一体架构,选用Apache Paimon作为数据湖满足分钟级的准实时业务场景,存储和处理大规模、多样化的数据。

功能概览:

  1. 开源Flink引擎下支持Oracle作为写入目标端
  2. 开源Flink引擎下支持通过Flink catalog用法读写Paimon、JDBC,支持实时入湖
  3. 开源Flink引擎下SLS connector优化:支持sls作为source时从设定的读取数据时点启动作业
  4. 开源flink引擎下Kafka connector优化:新增canal-json-insert消息格式,支持写入Hive


特性9:离线集成运行日志结构化,报错信息智能解析

应用场景:

任务运行完成后,开发人员可以查看结构化的日志信息,包括运行时长、读取/写入速度,CPU负载信息、脏数据条数等等,快速便捷地了解任务运行与数据同步的情况;在任务运行报错时,开发或运维同学可以快速定位日志中的错误信息,找到原因与解决办法,提高排查问题的效率。

功能概览:

  1. 日志信息结构化:将原始日志信息提取为结构化信息,包括运行信息、通道信息、异常信息与运行代码。
  2. 报错信息智能解析:在任务运行报错后,提取日志内的错误信息,根据内部已有的报错信息知识库进行相似度检索,提供可能的报错原因与可参考的解决方案。


特性10:离线集成新增提交详情校验

应用场景:

在提交任务时,开发人员需要前置感知一些信息,如任务配置是否完整、各种对象是否有权限、是否有重复上云表等等。然后对于可能会导致生产任务失败或影响数据质量的风险项进行处理,提高生产任务稳定性与数据质量。

功能概览:

  1. 管道配置校验:校验管道与组件配置的完整性。
  2. 权限校验:校验开发账号和生产账号下,数据源、数据表的读/写权限、密钥的使用权限、质量规则的发布权限。开发账号权限校验失败或对象不存在时,状态为失败;生产账号校验失败或对象不存在时,状态为告警。
  3. 表重复性校验:校验该租户下,是否有已提交/发布的集成任务,使用了相同的来源表或数据表,如有则告警,并提供相关任务信息。

特性11:支持小时/分钟任务配置未完成告警

应用场景:

  1. 某企业调度任务配置的是每小时调度,期望整点运行的实例过50分钟还没有完成就发出告警;
  2. 某企业调度任务配置是每小时调度,期望每天的第一个小时调度的实例在早上6:00还没有完成就发出告警;

功能概览:

  1. 支持配置指定周期的小时/分钟调度实例在特定时间未完成告警
  2. 支持配置指定周期的小时/分钟调度实例在定时运行时间指定时长后未完成告警
  3. 优化批量监控配置


特性12:支持内建账号体系优化

应用场景:某企业采用Dataphin内建账号体系进行登录,在初次使用或新成员入职时,需要为员工们创建账号;在日常使用的过程中,用户需要对密码进行重置或修改。

功能概览:

  1. 支持快捷创建账号,包括手动新建单个或多个账号、通过上传Excel文件批量新建账号;
  2. 支持超级管理员和系统管理员重置用户密码,支持普通用户修改个人密码;

特性13:自定义财务日历和财务统计周期

应用场景:

某些企业的财务周期设置与自然日历不同,比如 544 财务日历,将一年定义为 52 周,每个季度 13 周,按照 5-4-4 周数又拆分为 3 个财务月。在 544 日历下,每一财年的起始日不是固定位某月某日,每一个财务月的起始日也不一定是 1 日,还有可能周的起始日也不是周日或周一。如果要基于财务周期统计分析数据,就需要系统本身可以支持设置财务日历。

功能概览:

  1. 支持通过日历模板创建 445, 454, 544,4*13 财务日历,可自定义周起始日和财务基准日。

  1. 财务日历同时兼容普通公共日历的标签和日期类型

  1. 可以基于财务日历创建财务统计周期

特性14:业务限定支持在不同业务日期区间使用不同的计算逻辑

应用场景:

某一个财务系统内的业务限定“人员费”,在 2020~2021 财年的定义是科目 (1001,1002),2022 财年的定义是科目(1001,1002,1004),2023 财年又改为科目(1001, 1004)。在计算最近 5 年人员费时,需要根据相应财年的“人员费”定义来统计。也就是在不同日期区段内,“人员费”的计算逻辑是不同的。

功能概览:

特性15:质量分

在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。

应用场景:

1、企业的首席数据官,想知道企业整体的数据质量情况,是比较优秀还是不及格;同时想知晓质量变化情况,企业整体质量是在逐渐变好,还是在逐渐变差

2、企业的质量管理员想知道企业的质量分布情况,可以通过质量排行榜找到企业质量的薄弱点并有针对的进行优化。

功能概览:

1、在质量大盘下方,新增了质量评分界面,可以查看全局质量评分和等级,并可以查看全局质量分的历史走势

2、可以查看质量分排行榜,发现并弘扬最佳质量;定位并优化待提升质量

特性16:质量跨租户发布

应用场景:

开发环境验证好的质量监控和质量规则,需要一键发布到生产环境,对生产环境数据进行监控。

功能概览:

1、跨租户发布新增质量模块,支持质量规则和规则模版的跨租户导入导出

特性17:表最高涉密等级

应用场景:

支持按照表中字段的最高敏感等级给表打标,协助用户在资产查找、资产运营、权限申请和权限审计时判断是否涉及敏感数据

功能概览:

1、资产目录支持表最高涉密等级

2、权限流程支持表最高涉密等级

特性18:数据标准拆分标准集与标准模板,结构定义更清晰,批量操作更编辑

应用场景:

标注集可以理解为一种特殊的标准目录,除了分类外,还承载标准查看权限管控和审批流程定义,注重管理信息定义;标准模板主要定义标准本身需要填写的属性规范,更好的不承载实际业务含义。实际应用中,建议一张表对应一个标准集或一个业务实体(如客户)对应一个标准集,每个标准类型对应一个标准模板(如基础标准、指标标准),从而简化标准规范定义的工作,同时也能满足灵活、多样化的管理诉求。

功能概览:

针对不同类型的数据标准梳理规范,并通过属性定义约束在不同模板下创建的数据标准的录入要求,如:应用于中间表字段的基础标准,需填写:标准名称、描述、业务含义、数据类型、值域等属性;应用于指标的指标标准,除了基础标准需要填写的信息外,还需填写关联维度、统计周期、统计口径等属性。

结合每个数据标准的生效范围和使用场景,对数据标准进行分类并创建对应的标准集,并指定每个标准集包含的数据标准的查看权限及上线审批流程。如:企业公开标准对全员可见,财务口径相关的标准仅财务分析人员可见,且标准上线需要走严格的审批流程。



基于升级后的结构,可支持跨标准集批量导入数据标准,同时也支持一次性选择归属于多个标准集、引用不同标准模板的数据标准批量导出,操作更便捷。

特性19:支持数据探查,快速了解数据概况,提前评估数据可用性和潜在风险

应用场景:

  • 需求分析与设计阶段:快速评估数据可用性,例如数据质量、数据分布等。结合业务场景,帮助分析和判断需求实现的可行性。
  • 测试汇报阶段:针对开发好的数据表产出数据探查报告,作为下游业务应用的输入。
  • 日常开发:定期对数据表进行自动数据探查,及时发现潜在的数据问题和风险。

功能概览:

支持配置并发起自动和手动探查任务,可配置探查的数据范围(字段、分区等)、探查频率(定时探查、指定任务运行成功后探查、手动探查)、探查场景(空值统计、字段值分布、唯一值统计,受数据类型限制);此外,还支持配置探查结果的查看权限,更好的保障敏感数据安全。

针对探查成功的记录,可查看探查报告,为您展示每个字段、每种场景的探查结果卡片,探查结果清晰明了。


相关文章
|
1月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
128 3
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
2月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
683 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
1月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
|
2月前
Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚
开发人员小张先前编写的一个脚本,在进行了修订之后,发现逻辑出现了偏差,但他已经不记得前一版本的具体内容了。在这种情况下,应该怎样通过版本对比来看出两版脚本之间的差别,并且回滚到之前的版本呢?
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
214 1
|
7月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章