DataphinV4.0来啦:自定义全局角色 ,实时研发覆盖全部署场景,个性化企业配置看本期

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本次V4.0版本升级,Dataphin支持自定义全局角色、自定义逻辑表命名规范、Flink on K8s的部署模式,提升企业级适配能力,灵活匹配企业特色;将集成任务快速从组件模式切换为脚本模式、支持外部触发类型节点等,提升研发平台易用性,助力高效开发便捷运维。

Dataphin@2x.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。

(如有数据治理相关问题可入群交流

image.png


image.png

Dataphin V4.0 版本升级功能点

01- 平台支持企业级适配,适配企业特色

  • 支持自定义全局角色  
  • 实时研发支持Flink on K8s部署模式,实时研发功能覆盖全部署场景输出
  • 自定义逻辑表命名规范,灵活适配企业行业规范或企业级规范

02-研发体验优化,加速企业数字能力建设

  • 离线集成:集成任务支持从组件模式快速切换为脚本模式、SelectDB数据源支持离线集成
  • 离线研发:表级多字段一键推荐标准、数据库SQL支持AnalyticDB for PostgreSQL
  • 实时研发:支持实时写OSS数据源、支持Flink批任务配置失败重试策略
  • 调度运维:外部触发类型节点、逻辑表补数据优化

03-数据治理能力提升,保障企业数据质量与安全

  • 标准支持标准文档在线管理和预览、标准对接特征中心,支持智能推荐映射关系
  • 质量:支持手动添加质量问题、数据质量支持自定义属性管理、任务调度能力强化-支持自定义推荐或上挂上游依赖任务

04-数据运营体系完善,助力企业最大化数据资产价值

  • 标签:标签资产问题反馈、可创建基于统计的偏好类标签
  • 运营:支持切换不同数据源下生成的DDL语句、丰富物理表的展示信息,包括更细粒度的存储格式、内部表和外部表的标识


新版本重点特性详解及应用场景示例

特性 01:支持自定义全局角色,实现按岗赋权

应用场景:

使用Dataphin的用户往往来自于公司中不同的部门及岗位,每个岗位的人需要使用的功能模块并不相同,管理员期望可以让不同岗位的用户仅看见其需要使用的功能模块及需要的权限,一方面可以降低用户的理解成本提升体验,另一方面也能减轻管理员的支持管理负担,如:小A是公司内部专门负责标准录入的业务同学,在日常使用过程中主要使用“标准”模块下“数据标准”和“标准集”的功能,管理员期望对于这部分同学只展示“标准”模块,且在“标准”中只可见“标准集”和“数据标准”。

本期支持自定义全局角色功能,帮助管理员实现按岗赋权,使管理员能够自由配置每个角色在Dataphin中的菜单和功能权限,确保平台的权限安全。

功能概览:

  1. 便捷管理系统角色:支持查看所有系统角色的权限,帮助用户快速了解各角色的权限点,并支持对不需要的角色进行启用和停用;
  2. 灵活配置自定义角色:支持通过新建、克隆和复用的方式自定义全局角色,可灵活定义角色可见的功能模块和在模块内的使用权限。

特性 02:支持Flink on K8S部署模式,实时研发功能覆盖全部署场景输出

应用场景:

某企业目前主要的数据需求集中于数据分析和报表搭建。随着业务的增长,他们意识到实时数据处理对于提高决策效率和优化业务流程的重要性,希望找到成本可控、便于运维的实时数据处理能力以支撑业务高速增长。他们了解到Flink是一个强大的实时数据处理框架,可以满足他们的需求,但也知道Flink通常在与YARN集成的Hadoop环境中运行,目前公司没有部署 Hadoop 集群,也缺少有相关经验的技术人员。他们找到Dataphin 团队,希望能提供一个轻量级、成本可控、易于运维管理的实时数据处理解决方案。

功能概览:

  1. 节约成本,无需购买Hadoop集群即可使用实时研发或实时集成功能;
  2. 节约运维成本,无需关心第三方实时计算引擎的运维;
  3. 可复用和共享Dataphin调度资源组的能力,精细化分配集群资源,支持为实时任务配置单独的资源组,划分单独的计算资源队列,不影响离线任务的调度运行

特性 03:逻辑表支持自定义命名规范

应用场景:

Dataphin v4.0 之前,逻辑表的前缀和后缀部分是系统内部固定的(事实逻辑表前缀可修改),但部分客户特别是国央企客户有自己的行业或企业内部命名规范。

Dataphin 内置规范

某企业命名规范

维度逻辑表

dim_[业务对象编码]

tdim_[企业自有规范]

事实逻辑表

fct_[业务活动编码]

tdwd_[企业自有规范]

汇总逻辑表

dws_[统计粒度]

tdws_[企业自有规范]

命名规范需要支持定义表名称的前缀,后缀和能反映业务含义的各种编码。

功能概览:

  1. 支持板块级自定义逻辑表命名规范

  1. 逻辑表命名规范不再是强制规范,而是建议规范,允许在新建/编辑逻辑表时灵活调整命名

  1. 支持灵活自定义派生指标命名

特性 04:触发式节点支持跨系统调度依赖

应用场景:

在企业的数据处理流程中,可能会有以下这样的场景: 存在多个不同的数据平台,比如使用 Dataphin 作为核心的数据仓库处理平台,另外有一个上游数据采集系统,使用 unix 的 crontab 定时调度。采集系统每天完成某个数据的采集完成时间,会由于上游数据量的原因而不稳定。当采集完成时,需要有一种手段可以告知 Dataphin,以便于 Dataphin 的集成系统开始拉取数据。

比较常见的解决方案是,上游采集系统在数据准备好之后,在某一个公共的位置写下一个完成标记,Dataphin 通过轮询的方式检测该完成标记是否已生成。这种方案存在以下问题:

  1. 存放标记的公共位置比较难管理,常用的主要有某个数据库或文件系统,有时不一定存在一个双方都容易访问的公共位置服务。
  2. Dataphin 的轮询任务有时会长时间运行,占用系统资源。

Dataphin v4.0 版本新增触发式节点,可以作为一种替代方案。

功能概览:

触发式节点任务除了有内部依赖外,还有外部依赖。与其他类型任务的区别是,除了需要满足运行时间和内部上游依赖完成之外,还需要外部依赖也完成。外部应用通过OpenAPI发送消息给Datpahin,触发满足其他运行条件的任务实例进入运行。

特性 05:标准文档在线管理,为标准建设提供可信依据

应用场景:

开发者小 A :为什么“性别”标准的“值域”约束是 (0,1,2,9),我们之前的开发规范都是(F,M,UN)。

面对质疑,标准管理员小 B 拿出电脑,找到“国标文档”文件夹,打开《GBT 2261.1个人基本信息分类与代码 第1部分:人的性别代码》文件向小 A 解释:为了满足个人基本信息的交换与共享....

一番解释过后小 B 感慨,要是能把这些文档都在线管理,查看标准的时候顺便能看到关联的文档就好了...

功能简介:

标准文档通常是标准制定的来源和依据,充当知识桥梁和操作指南的角色。通过集中管理标准文档以及文档和标准之间的关系,能够让团队在数据处理和使用时能遵循统一的准则和流程,提升整体工作效率,确保各类业务和技术标准得以有效整合并便捷使用。

Datphin V4.0 版本新增标准文档功能,支持导入多种不同格式的文档,包括 PFF、Word、PPT、Excel 等,也支持对文档进行分组,便于结构化管理和查看。为了满足不同的阅读习惯,我们提供了不同的查看视图:“目录”视图可以按照设置的文档分组逐级展开,更聚焦查看一组相关的文档;“平铺”视图则将所有文档信息,提升批量操作效率。

更重要的,我们可以将标准文档和数据标准进行关联,这样在查询标准时,就可以快捷查看相关的标准文档,了解标准制定依据及上下游相关应用,进而优化开发设计,提升规范性。

有了这个功能,小 A 学习到更多标准设计的规范并举一反三,优化了其他使用相关、但是没有创建对应标准的表结构设计;小 B 的工作效率也提升了,对标准文档管理功能十分满意。

特性 06:智能推荐标准映射关系

应用场景:

标准管理员小 B 定义了会员性别、会员邮箱等标准,需要和对应的字段建立起关联关系以规范后续开发;但是由于字段命名各异、所属表分散,难以抽象出通用的映射规则。小 B 想,如果系统能够根据数据内容自动识别并推荐关联的数据标准,智能生成映射关系就好了。

功能概览:

历史版本中,Dataphin 安全模块支持基于识别特征自动推荐分类分级打标结果。识别特征是基于字段的数据内容、元数据属性,结合“正则表达式、包含、不包含”等运算条件对数据特征进行表达。这个版本中,我们进一步扩大了识别特征的应用范围,可以将识别特征和数据标准进行关联(如“手机号”特征关联“手机号码”字段标准),关联后可以在落标映射规则中配置“按识别特征智能映射”,那么规则运行时,就会对圈选出来的字段内容进行采集并结合特征表达式计算字段对应的识别特征,进而生成字段和标准的映射关系。

该功能不仅可以大大提升资产对象和数据标准之间映射关系的配置效率,也进一步提升了映射关系的准确率,减少人工介入确认成本,进而加速数据标准落地进程,助力数据建设标准化和整体资产质量的提升。

更多介绍,请查看《智能推荐映射关系,加速数据标准落地进程》

特性 07:质量规则支持自定义属性,规则管理更便捷

应用场景:

随着企业数据治理开展到一定阶段,对质量监控规则的精细化管理诉求进一步提升,质量管理员常常会收到以下诉求:

  • 数据治理团队希望对数据质量规则进行更加细致的“分类”并指定“规则负责人”,以提升规则管理效率。
  • 数据质量管理员需要统计不同“归口管理部门”负责的质量规则对应的监控通过率和整改结果,优化数据质量监控流程。
  • 某大型企业为不同业务部门创建了不同的租户,集团制定了统一的质量规则属性(如“规则制定依据、校验异常排查引导”)便于在各租户共享优秀的质量治理案例,同时各部门也希望根据实际业务需求增加个性化的属性便于内部管理。

以上场景,都需要为质量规则增加更丰富的属性信息作为补充。

功能概览:

“规划-属性管理”页面新增自定义“质量规则属性”功能,支持配置属性名称、是否必填、填写方式、默认值等基本信息,不仅能保证属性配置的规范性,同时也能提升配置效率;可指定属性是否用作规则列表的搜索或筛选项,让规则搜索更加灵活。此外,支持对属性进行排序,以便保持属性之间的相关性,也更符合操作人的填写和阅读习惯,提升使用体验。

属性启用后,在创建质量规则时,即可根据属性定义填写相应的业务信息。此外,还支持通过“追加”和“覆盖”的方式批量修改业务属性配置。整体来说,自定义属性作为质量规则业务信息的补充,让数据质量规则的管理更加自由、灵活、高效。

更多介绍,请查看《质量规则支持自定义属性,规则管理更便捷》

 

特性 08:治理工作台升级,可手动反馈质量问题,纳入标签问题管理

应用场景:

  • 业务分析师小 C 在资产目录中找到一张需求分析相关的表,通过“数据探查”功能了解表数据概况,发现其中一个字段的“值分布”存在明显异常,希望能直接快捷地反馈该数据质量问题
  • 质量管理员小 D 从数据运营团队收集到一批取数用数过程中遇到的问题,希望能够将这部分问题录入系统,和其他通过质量监控规则自动发现的问题用统一的整改流程来追踪
  • 标签业务员小 E 发现自己使用的标签数据已经 1 周没有更新过,需要向标签开发人员反馈该问题,并追踪问题的整改情况

功能概览:

为了解决上述问题,本期“治理工作台”全新升级,新增“手动录入质量问题”功能,还支持了对“标签”类型对象的问题反馈及管理。

您可以在资产目录或标签市场中浏览资产详情时快速反馈发现的异常问题,缩短问题反馈链路,也可以在治理工作台中统一批量录入问题,并在问题清单列表中统一查看和管理所有的质量问题。此外,反馈问题时,您可以上传附件(如数据比对结果、问题录屏等等)作为问题的依据,也可以选择是否提供个人联系方式,便于问题处理人联系您了解更多细节信息。

本次我们也对问题清单列表进行了升级。首先按照资产类型对问题进行分类统计,可以快捷查看每种类型下已提出的和待处理的问题总数,全局质量概况一目了然。其次,支持按照问题对象名称进行搜索,也可以对问题进行分类管理,提升查找问题效率。手动问题和系统自动识别问题可以一并加入整改流程进行统一整改追踪,不管是针对单个问题还是整个整改流程的操作,都会记录清晰可循的操作记录,真正实现了反馈有渠道、整改可跟踪。

更多介绍,请查看《治理工作台升级,可手动录入质量问题,实现反馈有渠道、整改可跟踪》

特性 09:Dataphin 表质量规则的调度配置可自动推荐触发任务和定时监控时间

应用场景:

某项目管理员需要根据不同表的数据产出特性,给对应的质量规则配置合适的调度触发方式:

  • 通过集成任务从业务库定时抽取数据的 ods 表,希望配置一个相对固定的校验时间:选择“定时调度”,并结合这张表的产出任务的平均运行结束时间配置调度时间,避免过早执行导致校验无效或过晚执行无法控制影响面
  • ods 表下游有多个 ETL 加工任务并写入到同一张结果表,希望每个加工任务运行成功后,都对结果表的数据有效性进行校验:选择“固定任务触发调度-所有任务均运行成功后触发”,并将该结果表的所有加工任务都作为触发任务

这些场景下,如果由质量负责人手动配置,可能需要经过查询、沟通、确认等多个流程,成本较高,由此,我们推出了智能推荐调度时间和调度触发任务配置的功能,助力提升调度设置的准确性和效率。

功能概览:

  • 定时触发调度:提供“一键自动填充推荐时间”的功能,系统会基于监控表在 Dataphin 对应的产出任务自动计算平均运行结束时间,并向后推迟一定时间作为推荐的时间点,减少产出任务查询和产出时间计算的人工操作;
  • 固定任务触发调度:提供“推荐任务”列表,系统会根据监控表的“血缘关系”和配置的“触发时机”推荐相关任务。如果选择“任务运行成功后触发”,会推荐“产出当前表的任务”,以便及时校验数据加工逻辑对表内容的影响;如果选择“任务运行成功前触发”(如:集成任务同步数据到目标源的场景),则会推荐“读取当前表的任务”,从而在确保数据内容正确的前提下再执行相关任务。

特性 10:标签覆盖场景增加,偏好类标签支持自定义统计方式

应用场景:

客户有大量的偏好类标签需求需要跨域进行标签加工,最终的标签值并非是偏好统计的对象,比如人货匹配场景下,某会员最近30天购买的商品中,涉及到多个商品类型,希望找出近30天购买金额总额最高的商品类型,此时需要根据订单金额(行为属性)的统计结果获取会员最偏爱的商品类型(商品类型为商品的属性)

功能概览:

  • 行为偏好类标签统计方式支持自定义统计,可根据行为关系的某一属性作为统计对象,根据统计结果选择另一属性的部分值作为标签值;
  • 支持使用统计结果绝对值或百分比作为阈值的筛选值,可选择“前”、“第”、“介于”作为筛选方式;

总结与展望

本次发布的V4.0版本中,Dataphin支持了自定义全局角色、自定义逻辑表命名规范、Flink on K8s的部署模式,提升了企业级的适配能力,灵活适配企业特色;并且支持将集成任务快速从组件模式切换为脚本模式、支持外部触发类型节点、支持为表级多字段一键推荐标准,提升了研发平台的易用性,助理企业高效开发便捷运维;在数据治理部分,标准模块支持了标准文档的在线管理和预览、同时支持通过识别特征智能推荐映射关系,质量模块支持手动添加质量问题、自定义质量属性、同时支持了自定义推荐上游依赖任务;在数据运营部分,标签支持了资产问题的快捷反馈、同时可创建基于统计的偏好类标签。

在下一个版本中,Dataphin将支持Lindorm作为计算引擎、行级权限、标准编码自动生成规则等功能,还有很多其他新增能力与功能升级,敬请期待。




联系我们,欢迎扫码请扫码加入钉钉群:

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
数据采集 运维 Java
有了 Dataphin v4.0,跨系统调度依赖再也不是难题
Dataphin v4.0引入了新的触发式节点,用于解决多数据平台间的调度问题。当上游系统(如Unix的crontab)完成数据采集后,可通过触发式节点通知Dataphin开始拉取数据,避免传统轮询方式的效率低和资源占用。触发式节点需满足Dataphin OpenAPI开通和网络连通条件,并通过SDK进行外部触发。示例展示了如何创建和使用触发式节点,以及使用Java SDK模拟触发请求。
721 0
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
471 0
|
3月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
222 49
|
12月前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
1054 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
|
4月前
|
SQL 数据管理 API
【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
377 9
|
数据采集 安全 API
DataphinV4.1大升级: 支持Lindorm开启高性价比数据治理,迎来“公共云半托管”云上自助新模式
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.1版本升级中,Dataphin 引入了Lindorm等多项新功能,并开启公共云半托管模式,优化代码搜索,为用户提供更加高效、灵活、安全的数据管理和运营环境,提升用户体验,促进企业数据资产的建设和价值挖掘。
2026 3
DataphinV4.1大升级: 支持Lindorm开启高性价比数据治理,迎来“公共云半托管”云上自助新模式
|
9月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
527 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
9月前
|
人工智能 自然语言处理 数据可视化
大模型+BI:一场关乎企业未来生死的数据智能卡位战 | 【瓴羊数据荟】数据MeetUp第四期
随着大模型技术突破,全球企业迎来数据智能革命。Gartner预测,到2027年,中国80%的企业将采用多模型生成式AI策略。然而,数据孤岛与高门槛仍阻碍价值释放。
345 8
大模型+BI:一场关乎企业未来生死的数据智能卡位战 | 【瓴羊数据荟】数据MeetUp第四期
|
12月前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
495 18