Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
(如有数据治理相关问题可入群交流)
Dataphin V4.0 版本升级功能点
01- 平台支持企业级适配,适配企业特色
- 支持自定义全局角色
- 实时研发支持Flink on K8s部署模式,实时研发功能覆盖全部署场景输出
- 自定义逻辑表命名规范,灵活适配企业行业规范或企业级规范
02-研发体验优化,加速企业数字能力建设
- 离线集成:集成任务支持从组件模式快速切换为脚本模式、SelectDB数据源支持离线集成
- 离线研发:表级多字段一键推荐标准、数据库SQL支持AnalyticDB for PostgreSQL
- 实时研发:支持实时写OSS数据源、支持Flink批任务配置失败重试策略
- 调度运维:外部触发类型节点、逻辑表补数据优化
03-数据治理能力提升,保障企业数据质量与安全
- 标准:支持标准文档在线管理和预览、标准对接特征中心,支持智能推荐映射关系
- 质量:支持手动添加质量问题、数据质量支持自定义属性管理、任务调度能力强化-支持自定义推荐或上挂上游依赖任务
04-数据运营体系完善,助力企业最大化数据资产价值
- 标签:标签资产问题反馈、可创建基于统计的偏好类标签
- 运营:支持切换不同数据源下生成的DDL语句、丰富物理表的展示信息,包括更细粒度的存储格式、内部表和外部表的标识
新版本重点特性详解及应用场景示例
特性 01:支持自定义全局角色,实现按岗赋权
应用场景:
使用Dataphin的用户往往来自于公司中不同的部门及岗位,每个岗位的人需要使用的功能模块并不相同,管理员期望可以让不同岗位的用户仅看见其需要使用的功能模块及需要的权限,一方面可以降低用户的理解成本提升体验,另一方面也能减轻管理员的支持管理负担,如:小A是公司内部专门负责标准录入的业务同学,在日常使用过程中主要使用“标准”模块下“数据标准”和“标准集”的功能,管理员期望对于这部分同学只展示“标准”模块,且在“标准”中只可见“标准集”和“数据标准”。
本期支持自定义全局角色功能,帮助管理员实现按岗赋权,使管理员能够自由配置每个角色在Dataphin中的菜单和功能权限,确保平台的权限安全。
功能概览:
- 便捷管理系统角色:支持查看所有系统角色的权限,帮助用户快速了解各角色的权限点,并支持对不需要的角色进行启用和停用;
- 灵活配置自定义角色:支持通过新建、克隆和复用的方式自定义全局角色,可灵活定义角色可见的功能模块和在模块内的使用权限。
特性 02:支持Flink on K8S部署模式,实时研发功能覆盖全部署场景输出
应用场景:
某企业目前主要的数据需求集中于数据分析和报表搭建。随着业务的增长,他们意识到实时数据处理对于提高决策效率和优化业务流程的重要性,希望找到成本可控、便于运维的实时数据处理能力以支撑业务高速增长。他们了解到Flink是一个强大的实时数据处理框架,可以满足他们的需求,但也知道Flink通常在与YARN集成的Hadoop环境中运行,目前公司没有部署 Hadoop 集群,也缺少有相关经验的技术人员。他们找到Dataphin 团队,希望能提供一个轻量级、成本可控、易于运维管理的实时数据处理解决方案。
功能概览:
- 节约成本,无需购买Hadoop集群即可使用实时研发或实时集成功能;
- 节约运维成本,无需关心第三方实时计算引擎的运维;
- 可复用和共享Dataphin调度资源组的能力,精细化分配集群资源,支持为实时任务配置单独的资源组,划分单独的计算资源队列,不影响离线任务的调度运行;
特性 03:逻辑表支持自定义命名规范
应用场景:
Dataphin v4.0 之前,逻辑表的前缀和后缀部分是系统内部固定的(事实逻辑表前缀可修改),但部分客户特别是国央企客户有自己的行业或企业内部命名规范。
Dataphin 内置规范 |
某企业命名规范 |
|
维度逻辑表 |
dim_[业务对象编码] |
tdim_[企业自有规范] |
事实逻辑表 |
fct_[业务活动编码] |
tdwd_[企业自有规范] |
汇总逻辑表 |
dws_[统计粒度] |
tdws_[企业自有规范] |
命名规范需要支持定义表名称的前缀,后缀和能反映业务含义的各种编码。
功能概览:
- 支持板块级自定义逻辑表命名规范
- 逻辑表命名规范不再是强制规范,而是建议规范,允许在新建/编辑逻辑表时灵活调整命名
- 支持灵活自定义派生指标命名
特性 04:触发式节点支持跨系统调度依赖
应用场景:
在企业的数据处理流程中,可能会有以下这样的场景: 存在多个不同的数据平台,比如使用 Dataphin 作为核心的数据仓库处理平台,另外有一个上游数据采集系统,使用 unix 的 crontab 定时调度。采集系统每天完成某个数据的采集完成时间,会由于上游数据量的原因而不稳定。当采集完成时,需要有一种手段可以告知 Dataphin,以便于 Dataphin 的集成系统开始拉取数据。
比较常见的解决方案是,上游采集系统在数据准备好之后,在某一个公共的位置写下一个完成标记,Dataphin 通过轮询的方式检测该完成标记是否已生成。这种方案存在以下问题:
- 存放标记的公共位置比较难管理,常用的主要有某个数据库或文件系统,有时不一定存在一个双方都容易访问的公共位置服务。
- Dataphin 的轮询任务有时会长时间运行,占用系统资源。
Dataphin v4.0 版本新增触发式节点,可以作为一种替代方案。
功能概览:
触发式节点任务除了有内部依赖外,还有外部依赖。与其他类型任务的区别是,除了需要满足运行时间和内部上游依赖完成之外,还需要外部依赖也完成。外部应用通过OpenAPI发送消息给Datpahin,触发满足其他运行条件的任务实例进入运行。
特性 05:标准文档在线管理,为标准建设提供可信依据
应用场景:
开发者小 A :为什么“性别”标准的“值域”约束是 (0,1,2,9),我们之前的开发规范都是(F,M,UN)。
面对质疑,标准管理员小 B 拿出电脑,找到“国标文档”文件夹,打开《GBT 2261.1个人基本信息分类与代码 第1部分:人的性别代码》文件向小 A 解释:为了满足个人基本信息的交换与共享....
一番解释过后小 B 感慨,要是能把这些文档都在线管理,查看标准的时候顺便能看到关联的文档就好了...
功能简介:
标准文档通常是标准制定的来源和依据,充当知识桥梁和操作指南的角色。通过集中管理标准文档以及文档和标准之间的关系,能够让团队在数据处理和使用时能遵循统一的准则和流程,提升整体工作效率,确保各类业务和技术标准得以有效整合并便捷使用。
Datphin V4.0 版本新增标准文档功能,支持导入多种不同格式的文档,包括 PFF、Word、PPT、Excel 等,也支持对文档进行分组,便于结构化管理和查看。为了满足不同的阅读习惯,我们提供了不同的查看视图:“目录”视图可以按照设置的文档分组逐级展开,更聚焦查看一组相关的文档;“平铺”视图则将所有文档信息,提升批量操作效率。
更重要的,我们可以将标准文档和数据标准进行关联,这样在查询标准时,就可以快捷查看相关的标准文档,了解标准制定依据及上下游相关应用,进而优化开发设计,提升规范性。
有了这个功能,小 A 学习到更多标准设计的规范并举一反三,优化了其他使用相关、但是没有创建对应标准的表结构设计;小 B 的工作效率也提升了,对标准文档管理功能十分满意。
特性 06:智能推荐标准映射关系
应用场景:
标准管理员小 B 定义了会员性别、会员邮箱等标准,需要和对应的字段建立起关联关系以规范后续开发;但是由于字段命名各异、所属表分散,难以抽象出通用的映射规则。小 B 想,如果系统能够根据数据内容自动识别并推荐关联的数据标准,智能生成映射关系就好了。
功能概览:
历史版本中,Dataphin 安全模块支持基于识别特征自动推荐分类分级打标结果。识别特征是基于字段的数据内容、元数据属性,结合“正则表达式、包含、不包含”等运算条件对数据特征进行表达。这个版本中,我们进一步扩大了识别特征的应用范围,可以将识别特征和数据标准进行关联(如“手机号”特征关联“手机号码”字段标准),关联后可以在落标映射规则中配置“按识别特征智能映射”,那么规则运行时,就会对圈选出来的字段内容进行采集并结合特征表达式计算字段对应的识别特征,进而生成字段和标准的映射关系。
该功能不仅可以大大提升资产对象和数据标准之间映射关系的配置效率,也进一步提升了映射关系的准确率,减少人工介入确认成本,进而加速数据标准落地进程,助力数据建设标准化和整体资产质量的提升。
更多介绍,请查看《智能推荐映射关系,加速数据标准落地进程》。
特性 07:质量规则支持自定义属性,规则管理更便捷
应用场景:
随着企业数据治理开展到一定阶段,对质量监控规则的精细化管理诉求进一步提升,质量管理员常常会收到以下诉求:
- 数据治理团队希望对数据质量规则进行更加细致的“分类”并指定“规则负责人”,以提升规则管理效率。
- 数据质量管理员需要统计不同“归口管理部门”负责的质量规则对应的监控通过率和整改结果,优化数据质量监控流程。
- 某大型企业为不同业务部门创建了不同的租户,集团制定了统一的质量规则属性(如“规则制定依据、校验异常排查引导”)便于在各租户共享优秀的质量治理案例,同时各部门也希望根据实际业务需求增加个性化的属性便于内部管理。
以上场景,都需要为质量规则增加更丰富的属性信息作为补充。
功能概览:
“规划-属性管理”页面新增自定义“质量规则属性”功能,支持配置属性名称、是否必填、填写方式、默认值等基本信息,不仅能保证属性配置的规范性,同时也能提升配置效率;可指定属性是否用作规则列表的搜索或筛选项,让规则搜索更加灵活。此外,支持对属性进行排序,以便保持属性之间的相关性,也更符合操作人的填写和阅读习惯,提升使用体验。
属性启用后,在创建质量规则时,即可根据属性定义填写相应的业务信息。此外,还支持通过“追加”和“覆盖”的方式批量修改业务属性配置。整体来说,自定义属性作为质量规则业务信息的补充,让数据质量规则的管理更加自由、灵活、高效。
更多介绍,请查看《质量规则支持自定义属性,规则管理更便捷》。
特性 08:治理工作台升级,可手动反馈质量问题,纳入标签问题管理
应用场景:
- 业务分析师小 C 在资产目录中找到一张需求分析相关的表,通过“数据探查”功能了解表数据概况,发现其中一个字段的“值分布”存在明显异常,希望能直接快捷地反馈该数据质量问题
- 质量管理员小 D 从数据运营团队收集到一批取数用数过程中遇到的问题,希望能够将这部分问题录入系统,和其他通过质量监控规则自动发现的问题用统一的整改流程来追踪
- 标签业务员小 E 发现自己使用的标签数据已经 1 周没有更新过,需要向标签开发人员反馈该问题,并追踪问题的整改情况
功能概览:
为了解决上述问题,本期“治理工作台”全新升级,新增“手动录入质量问题”功能,还支持了对“标签”类型对象的问题反馈及管理。
您可以在资产目录或标签市场中浏览资产详情时快速反馈发现的异常问题,缩短问题反馈链路,也可以在治理工作台中统一批量录入问题,并在问题清单列表中统一查看和管理所有的质量问题。此外,反馈问题时,您可以上传附件(如数据比对结果、问题录屏等等)作为问题的依据,也可以选择是否提供个人联系方式,便于问题处理人联系您了解更多细节信息。
本次我们也对问题清单列表进行了升级。首先按照资产类型对问题进行分类统计,可以快捷查看每种类型下已提出的和待处理的问题总数,全局质量概况一目了然。其次,支持按照问题对象名称进行搜索,也可以对问题进行分类管理,提升查找问题效率。手动问题和系统自动识别问题可以一并加入整改流程进行统一整改追踪,不管是针对单个问题还是整个整改流程的操作,都会记录清晰可循的操作记录,真正实现了反馈有渠道、整改可跟踪。
更多介绍,请查看《治理工作台升级,可手动录入质量问题,实现反馈有渠道、整改可跟踪》。
特性 09:Dataphin 表质量规则的调度配置可自动推荐触发任务和定时监控时间
应用场景:
某项目管理员需要根据不同表的数据产出特性,给对应的质量规则配置合适的调度触发方式:
- 通过集成任务从业务库定时抽取数据的 ods 表,希望配置一个相对固定的校验时间:选择“定时调度”,并结合这张表的产出任务的平均运行结束时间配置调度时间,避免过早执行导致校验无效或过晚执行无法控制影响面
- ods 表下游有多个 ETL 加工任务并写入到同一张结果表,希望每个加工任务运行成功后,都对结果表的数据有效性进行校验:选择“固定任务触发调度-所有任务均运行成功后触发”,并将该结果表的所有加工任务都作为触发任务
这些场景下,如果由质量负责人手动配置,可能需要经过查询、沟通、确认等多个流程,成本较高,由此,我们推出了智能推荐调度时间和调度触发任务配置的功能,助力提升调度设置的准确性和效率。
功能概览:
- 定时触发调度:提供“一键自动填充推荐时间”的功能,系统会基于监控表在 Dataphin 对应的产出任务自动计算平均运行结束时间,并向后推迟一定时间作为推荐的时间点,减少产出任务查询和产出时间计算的人工操作;
- 固定任务触发调度:提供“推荐任务”列表,系统会根据监控表的“血缘关系”和配置的“触发时机”推荐相关任务。如果选择“任务运行成功后触发”,会推荐“产出当前表的任务”,以便及时校验数据加工逻辑对表内容的影响;如果选择“任务运行成功前触发”(如:集成任务同步数据到目标源的场景),则会推荐“读取当前表的任务”,从而在确保数据内容正确的前提下再执行相关任务。
特性 10:标签覆盖场景增加,偏好类标签支持自定义统计方式
应用场景:
客户有大量的偏好类标签需求需要跨域进行标签加工,最终的标签值并非是偏好统计的对象,比如人货匹配场景下,某会员最近30天购买的商品中,涉及到多个商品类型,希望找出近30天购买金额总额最高的商品类型,此时需要根据订单金额(行为属性)的统计结果获取会员最偏爱的商品类型(商品类型为商品的属性)
功能概览:
- 行为偏好类标签统计方式支持自定义统计,可根据行为关系的某一属性作为统计对象,根据统计结果选择另一属性的部分值作为标签值;
- 支持使用统计结果绝对值或百分比作为阈值的筛选值,可选择“前”、“第”、“介于”作为筛选方式;
总结与展望
本次发布的V4.0版本中,Dataphin支持了自定义全局角色、自定义逻辑表命名规范、Flink on K8s的部署模式,提升了企业级的适配能力,灵活适配企业特色;并且支持将集成任务快速从组件模式切换为脚本模式、支持外部触发类型节点、支持为表级多字段一键推荐标准,提升了研发平台的易用性,助理企业高效开发便捷运维;在数据治理部分,标准模块支持了标准文档的在线管理和预览、同时支持通过识别特征智能推荐映射关系,质量模块支持手动添加质量问题、自定义质量属性、同时支持了自定义推荐上游依赖任务;在数据运营部分,标签支持了资产问题的快捷反馈、同时可创建基于统计的偏好类标签。
在下一个版本中,Dataphin将支持Lindorm作为计算引擎、行级权限、标准编码自动生成规则等功能,还有很多其他新增能力与功能升级,敬请期待。
联系我们,欢迎扫码请扫码加入钉钉群: