Dataphin(数据建设与治理)V3.12版本升级详情

简介: 本次发布的V3.12 版本中,核心重点能力主要有 支持 StarRocks计算引擎适配;部署去除OSS/Ceph等存储依赖;分析平台支持query任务;质量分,数据标准结构升级支持标准模板,批量导入导出;实时研发支持等Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表等在下一个版本中,将支持自定义消息渠道,支持质量知识库,标准、安全支持跨租户发布,分析平台支持手工表等功能,还有很多其他新增能力与功能升级,敬请期待。

一、关于Dataphin(智能数据建设与治理)

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。



二、Dataphin V3.12 版本升级功能点

01- 一站式数据汇聚处理,降低中台建设起步成本

  • 多平台多引擎适配:实时研发适配华为FusionInsight引擎;
  • 多数据源支持:新增支持Salesforce数据源

02-研发体验优化,加速企业数字能力建设

  • 离线集成:运行日志结构化,报错信息智能解析;新增提交详情,前置生产环境运行风险项
  • 实时研发:Flink SQL支持访问MySQL、Hologres、MaxCompute数据源中的表;支持将实时任务从vvp平台一键迁移至Dataphin;实时任务支持按savepoint灵活启停;开源Flink引擎下新增支持读写目标端,升级多个Connector;
  • 规范建模:业务限定支持在不同业务日期区间使用不同的计算逻辑
  • 调度:支持设置固定间隔时间的分钟调度;支持灵活设置跨不同调度周期(如: 天依赖小时,天依赖分钟)依赖的依赖策略
  • 运维:支持小时/分钟任务配置未完成告警;支持实例列表按照定时运行时间排序;
  • 标签:标签视图适配复杂加工链路

03-数据治理能力提升,保障企业数据质量与安全

  • 标准:结构升级,拆分标准集与标准模板,减少重复定义;批量导入导出优化,操作更便捷
  • 质量:质量支持质量分,评估全局质量情况和进行质量排行,有针对性的进行质量提升;质量支持跨租户发布,一键监控生产租户数据
  • 安全:资产支持表最高数据分级概念,协助用户在资产查找、权限审计等场景判断数据敏感性;跨项目严格模式和生产环境严格模式支持按照项目配置

04-数据运营体系完善,助力企业最大化数据资产价值

  • 分析平台:支持查询结果可视化
  • 数据服务:新增服务编排;标签与服务融合;服务单元增加描述字段;
  • 资产目录:支持数据探查,快速了解数据概貌,更早识别潜在风险


三、新版本重点特性详解及应用场景示例


特性1:Dataphin智能数据平台StarRocks版

应用场景:

Dataphin智能数据平台版,旨在面向工业、零售客户,提供轻量级一体化的数据存储、计算、研发、管理及消费的平台,让企业以低启动成本、低运维成本、低使用门槛下启动企业的数据采建管用体系建设。

功能概览:

  • 源自Dataphin的能力
  1. 功能全:一站式数据集成、研发、调度、数据治理及资产运营平台
  2. 稳定性:千万级调度、行业头部客户的认可、专业运维服务团队
  3. 开放性:开放集成能力、可扩展兼容多引擎

  • 源自StarRocks的能力
  1. 查询速度:向量化引擎及新一代CBO,查询速度超同类产品
  2. 实时数仓:支持kafka等多种数据导入、实时更新、聚合表及物化视图
  3. 湖仓一体:Hudi等外表极速查询、MySQL等联邦查询
  4. 架构简单,运维成本低

特性2:标签视图适配复杂加工链路

应用场景:

用于配置标签的离线视图及行为关系可能来源于其他项目的复杂加工,并且需要手动调整上游的依赖,根据依赖启动调度加工标签数据。

功能概览:

与Dataphin的代码研发一样,标签离线视图及行为关系可支持自动依赖解析,根据数据血缘关系检测上游的依赖。当然,如果自动依赖解析还未检测出需要的依赖,比如需要增加校验数据产出状态的节点,则可通过手动调整依赖构建正确的依赖关系图,避免过早起调,造成数据错误。

特性3:隐私计算上线联邦学习画布工作台

应用场景:

两个跨主体企业,在数据不出域情况下,期望联合两方数据特征/样本,共同训练一个联合模型。

功能概览:

联邦学习画布工作台,支持拖拉拽组件方式,一站式搭建【数据读取、特征分析、训练、预测、评估】工作流,降低联邦学习使用门槛;内置42个联邦学习组件,支持XGBOOST、逻辑回归、线性回归、MLP等常用算法,支持二分类、多分类、回归场景,能满足线索评级、金融评分卡、营销CTR/CVR等场景模型开发。


特性4:分析平台新增SQL查询任务,支持数据结果可视化

应用场景:

企业中的BI或数据分析师,希望能便捷地查询数据,然后快速便捷地对数据进行一些可视化操作。

功能概览:

分析平台新增SQL查询任务类型,支持查询结果可视化,包括线图、条形图、柱状图和饼图。支持分享代码、查询数据与可视化结果给指定成员查看。


特性5:服务编排

应用场景:

某航空企业数据部负责人需要将已有的乘客信息、航班信息、中转信息三个接口的数据进行整合并返回给前端应用展示,前端应用只需调用一次即可获取所有信息。

功能概览:


通过编写脚本的方式,实现一个请求依次调用多个API,并对每个API的返回结果做数据处理后统一返回。语法支持AviatorScript 5.0版本,编写完脚本后支持解析脚本,校验语法和引用的子API;支持配置组合API请求参数和子API请求参数的映射关系,将组合API的入参值传给子API的请求参数进行调用。对于调用者,无需多次调用API和对数据进行整合处理,这部分处理工作前置到API开发者去实现;对于API开发者,可以复用已有API的取数逻辑,无需重复编写取数逻辑。


特性6:服务与标签融合,复用数据服务的功能,在数据服务平台实现标签在线服务的开发和管理

应用场景:

客户同时购买标签和服务功能模块,在标签平台创建标签并开启在线服务后,查询用户标签画像信息时调用数据服务的标签接口,将标签结果返回。

功能概览:

标签平台调用服务提供的RPC接口,创建标签专用项目,并在标签开启在线服务时,调用RPC接口在数据服务平台创建标签在线服务。通过RPC创建的标签服务,只能在标签平台通过修改标签计算逻辑来更新服务的取数逻辑,保证标签与服务两边取数逻辑的一致性。对于标签平台,可以直接复用服务已有的功能,专注于标签业务功能。对于数据服务平台,可以作为统一的数据出口。


特性7:实时研发支持无需创建元表,Flink SQL访问MySQL、Hologres、MaxCompute数据源中的表

应用场景:

  1. 某企业采用MySQL作为业务数据库,库中有100多张表,希望不需要手动创建元表,一次性导入库中所有的表;
  2. 某企业有多个Hive集群,为了引用hive物理表,需要建很多计算源和很多项目,再一一绑定,然后跨项目引用的方式去使用(dml),操作比较繁琐

功能概览:

数据源新增数据源编码,配置数据源编码后,可在Flink SQL任务中通过数据源编码.table或数据源编码.schema.table的格式引用MySQL、Hologres和MaxCompute数据源中的表。


特性8:实时研发开源Flink引擎下新增支持读写目标端,升级多个Connector

应用场景:

  1. 某企业需要对实时流数据进行分析和生成报告,消息队列Kafka作为数据传输的中间层,将实时数据传输到Hive。
  2. 某企业希望构建湖仓一体架构,选用Apache Paimon作为数据湖满足分钟级的准实时业务场景,存储和处理大规模、多样化的数据。

功能概览:

  1. 开源Flink引擎下支持Oracle作为写入目标端
  2. 开源Flink引擎下支持通过Flink catalog用法读写Paimon、JDBC,支持实时入湖
  3. 开源Flink引擎下SLS connector优化:支持sls作为source时从设定的读取数据时点启动作业
  4. 开源flink引擎下Kafka connector优化:新增canal-json-insert消息格式,支持写入Hive


特性9:离线集成运行日志结构化,报错信息智能解析

应用场景:

任务运行完成后,开发人员可以查看结构化的日志信息,包括运行时长、读取/写入速度,CPU负载信息、脏数据条数等等,快速便捷地了解任务运行与数据同步的情况;在任务运行报错时,开发或运维同学可以快速定位日志中的错误信息,找到原因与解决办法,提高排查问题的效率。

功能概览:

  1. 日志信息结构化:将原始日志信息提取为结构化信息,包括运行信息、通道信息、异常信息与运行代码。
  2. 报错信息智能解析:在任务运行报错后,提取日志内的错误信息,根据内部已有的报错信息知识库进行相似度检索,提供可能的报错原因与可参考的解决方案。


特性10:离线集成新增提交详情校验

应用场景:

在提交任务时,开发人员需要前置感知一些信息,如任务配置是否完整、各种对象是否有权限、是否有重复上云表等等。然后对于可能会导致生产任务失败或影响数据质量的风险项进行处理,提高生产任务稳定性与数据质量。

功能概览:

  1. 管道配置校验:校验管道与组件配置的完整性。
  2. 权限校验:校验开发账号和生产账号下,数据源、数据表的读/写权限、密钥的使用权限、质量规则的发布权限。开发账号权限校验失败或对象不存在时,状态为失败;生产账号校验失败或对象不存在时,状态为告警。
  3. 表重复性校验:校验该租户下,是否有已提交/发布的集成任务,使用了相同的来源表或数据表,如有则告警,并提供相关任务信息。

特性11:支持小时/分钟任务配置未完成告警

应用场景:

  1. 某企业调度任务配置的是每小时调度,期望整点运行的实例过50分钟还没有完成就发出告警;
  2. 某企业调度任务配置是每小时调度,期望每天的第一个小时调度的实例在早上6:00还没有完成就发出告警;

功能概览:

  1. 支持配置指定周期的小时/分钟调度实例在特定时间未完成告警
  2. 支持配置指定周期的小时/分钟调度实例在定时运行时间指定时长后未完成告警
  3. 优化批量监控配置


特性12:支持内建账号体系优化

应用场景:某企业采用Dataphin内建账号体系进行登录,在初次使用或新成员入职时,需要为员工们创建账号;在日常使用的过程中,用户需要对密码进行重置或修改。

功能概览:

  1. 支持快捷创建账号,包括手动新建单个或多个账号、通过上传Excel文件批量新建账号;
  2. 支持超级管理员和系统管理员重置用户密码,支持普通用户修改个人密码;

特性13:自定义财务日历和财务统计周期

应用场景:

某些企业的财务周期设置与自然日历不同,比如 544 财务日历,将一年定义为 52 周,每个季度 13 周,按照 5-4-4 周数又拆分为 3 个财务月。在 544 日历下,每一财年的起始日不是固定位某月某日,每一个财务月的起始日也不一定是 1 日,还有可能周的起始日也不是周日或周一。如果要基于财务周期统计分析数据,就需要系统本身可以支持设置财务日历。

功能概览:

  1. 支持通过日历模板创建 445, 454, 544,4*13 财务日历,可自定义周起始日和财务基准日。

  1. 财务日历同时兼容普通公共日历的标签和日期类型

  1. 可以基于财务日历创建财务统计周期

特性14:业务限定支持在不同业务日期区间使用不同的计算逻辑

应用场景:

某一个财务系统内的业务限定“人员费”,在 2020~2021 财年的定义是科目 (1001,1002),2022 财年的定义是科目(1001,1002,1004),2023 财年又改为科目(1001, 1004)。在计算最近 5 年人员费时,需要根据相应财年的“人员费”定义来统计。也就是在不同日期区段内,“人员费”的计算逻辑是不同的。

功能概览:

特性15:质量分

在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。

应用场景:

1、企业的首席数据官,想知道企业整体的数据质量情况,是比较优秀还是不及格;同时想知晓质量变化情况,企业整体质量是在逐渐变好,还是在逐渐变差

2、企业的质量管理员想知道企业的质量分布情况,可以通过质量排行榜找到企业质量的薄弱点并有针对的进行优化。

功能概览:

1、在质量大盘下方,新增了质量评分界面,可以查看全局质量评分和等级,并可以查看全局质量分的历史走势

2、可以查看质量分排行榜,发现并弘扬最佳质量;定位并优化待提升质量

特性16:质量跨租户发布

应用场景:

开发环境验证好的质量监控和质量规则,需要一键发布到生产环境,对生产环境数据进行监控。

功能概览:

1、跨租户发布新增质量模块,支持质量规则和规则模版的跨租户导入导出

特性17:表最高涉密等级

应用场景:

支持按照表中字段的最高敏感等级给表打标,协助用户在资产查找、资产运营、权限申请和权限审计时判断是否涉及敏感数据

功能概览:

1、资产目录支持表最高涉密等级

2、权限流程支持表最高涉密等级

特性18:数据标准拆分标准集与标准模板,结构定义更清晰,批量操作更编辑

应用场景:

标注集可以理解为一种特殊的标准目录,除了分类外,还承载标准查看权限管控和审批流程定义,注重管理信息定义;标准模板主要定义标准本身需要填写的属性规范,更好的不承载实际业务含义。实际应用中,建议一张表对应一个标准集或一个业务实体(如客户)对应一个标准集,每个标准类型对应一个标准模板(如基础标准、指标标准),从而简化标准规范定义的工作,同时也能满足灵活、多样化的管理诉求。

功能概览:

针对不同类型的数据标准梳理规范,并通过属性定义约束在不同模板下创建的数据标准的录入要求,如:应用于中间表字段的基础标准,需填写:标准名称、描述、业务含义、数据类型、值域等属性;应用于指标的指标标准,除了基础标准需要填写的信息外,还需填写关联维度、统计周期、统计口径等属性。

结合每个数据标准的生效范围和使用场景,对数据标准进行分类并创建对应的标准集,并指定每个标准集包含的数据标准的查看权限及上线审批流程。如:企业公开标准对全员可见,财务口径相关的标准仅财务分析人员可见,且标准上线需要走严格的审批流程。



基于升级后的结构,可支持跨标准集批量导入数据标准,同时也支持一次性选择归属于多个标准集、引用不同标准模板的数据标准批量导出,操作更便捷。

特性19:支持数据探查,快速了解数据概况,提前评估数据可用性和潜在风险

应用场景:

  • 需求分析与设计阶段:快速评估数据可用性,例如数据质量、数据分布等。结合业务场景,帮助分析和判断需求实现的可行性。
  • 测试汇报阶段:针对开发好的数据表产出数据探查报告,作为下游业务应用的输入。
  • 日常开发:定期对数据表进行自动数据探查,及时发现潜在的数据问题和风险。

功能概览:

支持配置并发起自动和手动探查任务,可配置探查的数据范围(字段、分区等)、探查频率(定时探查、指定任务运行成功后探查、手动探查)、探查场景(空值统计、字段值分布、唯一值统计,受数据类型限制);此外,还支持配置探查结果的查看权限,更好的保障敏感数据安全。

针对探查成功的记录,可查看探查报告,为您展示每个字段、每种场景的探查结果卡片,探查结果清晰明了。


相关文章
|
9月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
522 2
|
11月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
784 0
|
9月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
315 0
|
数据采集 安全 大数据
Dataphin 5.1:API数据源及管道组件升级,适配多样化认证的API
为提升API数据交互安全性,Dataphin 5.1推出两种新认证方式:基于OAuth 2.0的动态授权与请求签名认证。前者通过短期Access Token确保安全,后者对关键参数加密签名保障数据完整性。功能支持API数据源OAuth 2.0认证和自定义签名配置,未来还将拓展更灵活的认证方式以满足多样化需求。
353 14
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
518 0
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
283 8
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
192 0
|
8月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
536 7

热门文章

最新文章