一、关于Dataphin(智能数据建设与治理)
Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
二、新版本重点特性详解及应用场景示例
特性 01:数据库调度:基于传统数据库的数据研发
应用场景:
基于传统的数据库的数据研发,统一调度运维:① 在数据同步到数仓前,需要进行数据的加工处理,如生成临时表,将临时表的数据同步到数仓内,同步完成后删除临时表;② 数据写入数据集市后,需要进一步的数据加工处理。 另外,希望在同一个平台内,对数据库的表可进行快速的分析探查,一站式数据研发、快速验证,无需多平台协同。
功能概览:
- 可支持数据库(Oracle、MySQL)SQL的研发、调度和运维;可根据血缘自动解析依赖,如检测上游集成任务和数据库SQL任务;支持存储过程的创建及执行
- 可支持数据库内的表数据的资产质量检测
- 可在Notebook和SQL分析里对数据库内的数据进行分析
注意:数据库SQL的语法校验不做强阻塞;仅做源级的执行权限校验,细粒度权限管控需在数据库通过对连接的用户权限进行控制
特性 02:支持通过上传方式安装第三方 Python Module
应用场景:
Dataphin内置安装的Python Module有限,但用户多样的场景可能需要使用未内置安装的Module,如: mysql或Oracle的 Python Module 用以访问连接外部数据库。Dataphin v3.14 之前的版本,引入第三方 Python Module 比较复杂,需要用户将 Module 安装文件及其依赖的 Module 的安装文件作为资源上传,在 shell 代码中安装,有以下不便利:
- 每一个引用某一个第三方 Module 的任务都需要重复编写安装代码,如果 Module 有更新变更,需要修改所有任务。
- 只能使用 shell 脚本执行 Python *.py 文件,Python 任务无法使用第三方 Module。
Dataphin 即将提供在线安装能力,支持连接镜像源安装部署第三方 Python Module 。
功能概览:
- 支持通过上传安装文件方式安装第三方 Python Module,支持两种安装文件
- *.whl 文件,将 module 自身的 *.whl 和其所依赖的其他 module 的*.whl 一起打包为*.zip 文件。适用于通过 *.whl 方式分发的 module。
- 自定义安装包,将 module 的安装步骤写在 setup.sh 或 setup.py 中,连通安装所需文件一起打包为 *.zip 文件。适用于通过源码方式分发的 module,以及需要依赖其他需要编译(gcc,make)的依赖库。
- 可在 Python 三方包列表管理已安装的 Module,支持查看引用、升级和删除。
特性 03:Hadoop集群支持Spark SQL研发及分析
应用场景:
Spark SQL相较于HiveQL有更好的查询性能,语法兼容度较高,并且内置了很多函数,方便开发者进行复杂的数据分析和处理。Dataphin提供了Hive SQL、Impala SQL的能力,希望Dataphin在提供Spark SQL的研发能力,可在统一元数据及统一存储的基础上,根据需要选择不同的引擎进行数据加工处理及分析,提升数据产出效率和研发效率。
功能概览:
- 使用Hive元数据统一存储,支持不同引擎:Spark SQL、HiveQL、Impala SQL
- 支持创建Spark SQL任务的调度及分析,并可根据执行引擎的支持情况分配资源或设置为动态分配
特性 04:支持在运维dag图上操作跨项目的节点
应用场景:
某运维人员同时负责运维多个项目,拥有多个项目的运维操作权限,在查看dag图排查问题时发现上游有跨项目的失败任务导致下游未运行,对上游任务执行重跑操作但只能跳转到任务对应的项目操作,导致进行运维操作时需要不停的切换项目搜索节点操作,十分繁琐。
功能概览:
支持在dag图上查看操作有权限的跨项目节点,便于用户操作
特性 05:Flink SQL任务支持基于Session集群调试,可对线上数据进行代码逻辑的调试
应用场景:
实时研发一直以来的都是通过local-debug的方式来调试开发中的Flink SQL任务,该方式有如下不足:
- 支持的采样数据有限,且非是流式数据的调试。
- 手动上传构造数据的方式较为繁琐,局限性较大。
功能概览:
- 支持基于Session集群调试实时任务
- 支持为Session集群划分独立资源以进行实时任务的调试,不影响其他任务的运行。
- 支持跳转Flink ui实时查看Session集群任务的状态、日志和输出结果。
- 支持用户对线上的真实数据进行代码逻辑上的调试。
- 支持流式数据的调试,实时获取任务的输出结果。
特性 06:集成支持自定义FTP标记完成文件内容
应用场景:
标记完成文件是文件传输场景中一种常见的约定机制,用于指示文件已被完全传输,且可用于下一步的处理,防止部分传输的数据被误认为是完整的。文件接收方通过检查标记完成文件是否存在,以及解析其中的内容,可以验证文件完整性,从而进行后续的数据处理流程。当多个文件同时上传时,标记完成文件可以帮助区分哪些文件已完成上传,哪些尚在传输中。标记完成文件可以确保在所有文件都上传完成后,再进行后续处理。
功能概览:
- 支持在文件传输完成后,对目标端写入文件级或任务级的标记完成文件。
- 支持自定义配置标记完成文件的路径与内容。
- 可配置的标记完成文件内容支持全局变量、任务级变量、上游组件变量(包括文件名、数据行数、文件大小),且支持自定义分隔符,以适配企业多样化的需求。
特性 07:实时任务支持配置引用全局变量
应用场景:
用户使用原生DDL的方式开发Flink SQL任务,这种方式简单直接,但存在一些问题:
- 需要将账号密码写在代码中,不安全
- 账号密码变更则需要手动更新所有相关任务的代码
功能概览:
- 支持实时任务引用全局变量
- 账号密码变量解决一直以来账号密码的安全保密问题
- 日期时间变量提供定义类似${bizdate}的动态日期变量的能力
特性 08:数据标准支持灵活开启上下线审批配置,批量审批更高效
应用场景:
不同企业由于团队规模、管理规范不同,数据标准的管控流程也有所差异。比如对于管控流程较严格的企业来说,标准上线可能需要经过不同角色的层层审批,最终确认是否符合上线标准:部门业务负责人负责业务属性的审核、技术负责人负责技术属性的审核、标准管理员负责管理属性和整体规范性审核;而标准下线流程相较来说有所简化,由标准负责人发起,标准管理员统一审批。对于管控流程比较简单的企业,可以由指定人员完成标准的上线操作,标准管理员统一审批;下线操作只能由管理员发起,无需审批。由此,我们需要支持数据标准上下线审批流程的独立管控。
此外,部分企业的审批流对接了第三方审批系统,但是三方系统可能不支持批量操作,导致标准审批任务繁琐,希望能够在批量提交标准上线/下线操作时能合并生成审批任务,提升审批效率。同时,也希望传递给三方系统更加丰富的任务详情数据, 为审批人提供参考信息。
功能概览:
- 上下线审批流程独立管控:支持独立配置标准上线、下线的审批开关,可配置不同的审批模板;支持免审批
- 合并审批:开启审批时,可配置每次批量操作是否需要合并生成一个审批任务;请注意,合并的审批审批仅支持整体操作,不支持单独通过或驳回其中部分数据标准。如果您希望批量审批同时也希望支持单独针对不同数据标准执行不同操作,您也可以关闭“批量操作合并审批任务”配置,在任务中心批量选中每个标准生成的审批任务执行批量操作。
- 审批任务详情优化:在 Dataphin 的内置审批系统重可查看每一条待审批的数据标准的详细信息,支持版本对比;同时丰富了传递给三方审批系统的审批任务详情,如:标准引用的标准模板信息、关联码表&码值等
特性 09:数据标准多种对象支持批量操作,操作结果反馈更清晰
应用场景:数据标准可能需要联动主数据系统等一起使用,承接在主数据系统中已经维护好的数据作为码表;另外,某些标准对象可能需要线下讨论梳理、审核后再批量导入系统,如:
- 标准管理员从主数据系统导出码表Excel,按照部门进行分组后,希望能快速添加为Dataphin的码表并关联数据标准使用
- 标准集负责人想查看标准集下的标准最近一天执行了哪些批量操作、汇总操作结果以及每个操作异常的对象对应的原因
历史版本中,Dataphin 已经支持了批量导入、导出数据标准和映射关系。本期,我们拓展了可批量导入的对象类型,同时增加了部分批量操作,并通过批量操作记录列表将操作详情进行清晰的展示。
功能概览:
- 码表支持分组管理:最多可配置5级码表目录,可以根据使用场景等对码表进行结构化管理。
- 码表/词根可批量导入导出:支持基于Excel批量导入导出码表和词根,以快速实现冷启动,低成本更新参考数据信息
- 标准批量操作拓展:数据标准新增支持批量下线、删除操作;支持导出全量映射关系或指定资产对应的映射关系用于线下审核确认。
- 清晰的批量操作记录:支持按照操作类型、状态、操作人筛选从而快速定位操作记录;可查看每次操作的整体结果以及每个对象的操作结果明细,针对跳过操作和操作失败的对象,提示具体的原因,便于分析整改。
特性 10:支持不同监控规则配置不同报警
应用场景:
同一个监控对象下有多条规则,如果所有规则都按照一种告警方式进行告警,则无法区分告警级别。现希望根据规则进行区分告警,配置不同的告警接收人及告警方式,能够更快更精准的识别紧急问题。
功能概览:
1、支持不同监控规则配置不同的告警接收人和方式,支持按规则强度动态圈选,也支持自定义规则范围
2、支持告警规则排序,相同告警可自动合并
特性 11:支持基于数据血缘自动继承安全分级分类
应用场景:
针对识别规则未覆盖、最近新增而导致没有分类分级打标结果的数据,可基于血缘关系自动继承上游字段的分类分级,结合默认脱敏策略,可在一定程度上减少敏感数据的不当使用和泄露
功能概览:
1、支持在配置是否开启自动继承功能,开启后,可继承上游字段的分级分类
2、支持配置触发继承的场景和继承策略
特性 12:新增FPE保型加解密算法,以适配金融、医疗等行业的加解密诉求
应用场景:
FPE 加解密算法常用于金融、医疗、零售等行业,用于对个人身份信息、医疗健康等敏感信息进行加密。对比其他常用的 AES 等算法,其特殊之处在于可以在保证敏感数据安全的同时,保持数据原有格式不变(如“电话号码”,一串数字加密后仍然是一串相同长度的数字),从而确保系统内部的数据加工处理不受影响,也不会影响数据库的结构和查询性能。
功能概览:
- 灵活的可视化配置:一个字段支持配置多个加密区间,支持滑动式添加和手动添加区间方式,并且配置内容可自动联动填充,以提升操作效果和配置正确性。每个加密区间都需要配置一个加密字典,系统内置了常用的加密字典,也支持自定义,以满足多样化需求。不同区间可以配置不同的加密字段,可以在符合字段规范的同时进行加密,如:身份证号 1~17 位使用“数字”系统加密字典,第 18 位使用“数字+字母 X” 的自定义加密字典,可以保证身份证格式的正确性,便于下游进行处理。
- 丰富的调用场景:支持在集成任务加密组件使用 FPE 算法,可自定义加解密密钥。此外,脱敏规则中可以选择 FPE 加密算法实现脱敏处理(内置密钥放泄露),以及可以在代码任务中直接调用。
- 多种异常兼容策略:针对因配置错误导致的数据无法加密的情况,系统预设了灵活的异常兼容对策,允许用户选择报错反馈、返回原始明文或返回空值,从而确保与下游应用程序间的稳定对接和业务连续性。
特性 13:标签离线视图上可配置码表,标签即可引用来源字段的码表
应用场景:
在属性类标签中会使用大量的码表的数据(参考数据),比如营业部,门店代码等,会员状态等。这些数据都有标准的代码以及更具可读性的中文名称。在使用标签进行群组圈选、组合标签时,希望看到码值的中文名称更易理解,而在系统对接时,需要使用代码值以确保唯一性和稳定性。
功能概览:
- 离线视图中可配置字段的码表,支持最多50个码值;
- 指标映射类离线标签中,自动引用来源视图字段中配置的码表;
- 在创建组合标签、群组时,配置条件时可查看代码名称。
应用场景:
针对识别规则未覆盖、最近新增而导致没有分类分级打标结果的数据,可基于血缘关系自动继承上游字段的分类分级,结合默认脱敏策略,可在一定程度上减少敏感数据的不当使用和泄露
功能概览:
1、支持在配置是否开启自动继承功能,开启后,可继承上游字段的分级分类
2、支持配置触发继承的场景和继承策略
特性 14:支持对生产账号进行板块和项目级别的授权
应用场景:
在Dataphin中实现跨项目之间的数据调用需要相应账号具备所访问数据的权限,Dataphin针对此场景提供了申请跨项目表权限的功能。但是在数据研发的过程中一些项目之间是高度互信的,例如同一数据分层ODS层下存在多个项目,这些项目之间需要实现数据互通。个人账号可以通过加入到某一项目中获得该项目下所有表的权限,本期提供批量授权的功能以解决生产账号无法批量获取某一项目下所有表权限的问题。
功能概览:
1、支持项目管理员和板块架构师将所负责板块或项目下的所有表(包括后续新增表)批量授权给某一生产账号
2、支持在权限管理模块对该操作行为进行审计
特性 15:支持对接企业微信和飞书群机器人
应用场景:
企业微信和飞书作为常用的办公软件,众多企业通过这两款软件的群机器人接收外部服务的消息。在3.14版本前,Dataphin不支持将系统内消息发送到上述两种渠道。
功能概览:
1、新增企业微信和飞书群机器人消息渠道,支持在系统设置中选择开启和关闭
2、支持将告警信息和系统通知发送到所配置的群机器人
特性 16:支持配置租户公告,助力用户运营
应用场景:
- 版本停服升级前,可以通过租户公告发送停服升级通知,提示相关人员做好关联业务的影响预案
- 版本升级后,可以发送新版本亮点功能的宣传图文,给平台用户宣导新功能的使用
- 上线新的核心资产时,可以通过公告发送相关资产内容的介绍,同步相关开发人员或业务人员进行使用……
功能概览:
支持在元仓租户中配置面向所有租户的系统公告:
- 支持配置公告的生效时间、发送范围(租户粒度)
- 支持文本、图片两种公告格式,并可配置超链接跳转,支持预览公告
- 支持公告状态管理:可立即发布待生效的公告、将生效中的公告置为失效等
特性 17:自定义首页的底部词条及首页的视频,满足运营及合规需求
应用场景:
根据相关法律规定,非经营性互联网信息服务提供者应当在其网站开通时在主页底部的中央位置标明其备案编号,则可以在首页底部进行配置 备案号。另外,在底部增加客制化的帮助文档,使用说明,首页的Dataphin的宣传视频可更换为本公司的介绍视频 ,帮助平台的用户更好的学习和使用平台。
功能概览:
- 可自定义底部词条,可放置词条名称及链接。
- 可随时替换首页的介绍视频,可上传视频或使用链接
三、总结与展望
本次发布的V3.14 版本中,Dataphin支持了租户公告可配置、多种消息渠道可对接等能力,提升了企业级的适配能力,灵活适配企业的个性化需求;并且支持了数据库SQL任务调度,为企业数据端到端的解决方案;通过支持SparkSQL,指标开放调度配置、实时任务支持session集群调试、运维操作跨项目节点等功能,提升了研发平台的易用性,助力高效开发便捷运维;在数据治理部分,数据审批能力更完备,质量规则告警配置更灵活、安全分类分级继承上游。
在下一个版本中,Dataphin 将支持元数据中心、数据标准智能推荐映射关系等功能,还有很多其他新增能力与功能升级,敬请期待。
联系我们,欢迎扫码请扫码加入钉钉群: