一、关于Dataphin(智能数据建设与治理)
Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。
二、DataphinV3.7版本升级功能点
01-国产化支持与适配,响应市场需求
- 国产操作系统适配:支持龙蜥操作系统。
- 国产浏览器适配:支持奇安信浏览器。
- 国产数据库支持:支持人大金仓(KingBaseES)、南大通用(GBase 8a)、GoldenDB、TiDB数据库的离线集成。
02-研发体验优化,加速企业数字能力建设
- 逻辑表详情优化:增加逻辑表建模的"规范性"含量,包括承接概念模型,增加类型约束,增加业务属性;通过创建编辑逻辑表流程向 导化,提升交互体验;通过交互设计隐藏或弱化概念, 降低理解成本。
- 新增运行记录功能:对于开发环境的即席查询,运行计算任务、逻辑表数据预览、派生指标冒烟测试、资产数据预览及OpenAPI数据查询提供查看代码、查看执行日志、停止运行、下载结果等功能,集中管理运行会话。
- 集成优化:离线集成管道支持自动解析依赖与输出;字段计算组件提供函数支持将二进制类型转换成16进制字符串;集成任务菜单树优化,支持任务筛选;API输入组件支持中文字段;屏蔽组件模式下Teradata的视图;实时增量集成至Hive新增自定义建表功能。
- 实时研发:元表创建及使用全流程体验优化;Flink SQL任务支持SQL Hints;实时研发链路体验优化,包括编译、提交、发布错误提示优化。
- 发布审批:支持在项目配置中开启发布审批,以增加发布环节的管控灵活性;优化发布列表筛选及发布记录详情展示,提升易用性。
- 运行配置:支持在运维中心配置租户级任务超时时间、自动重试次数和重跑间隔,提升可配置性。
- 权限申请:支持按照表级进行权限的申请、授权与鉴权,提升权限申请和授权效率。
03-数据治理能力提升,保障企业数据质量与安全
- 数据标准体验优化:支持配置标准可见范围、审批模板以适配个性化管理诉求;支持跨标准集检索数据标准以提升检索效率;支持配置公共标准集属性以实现一次创建多次复用,支持查看落标映射规则执行明细。
- 全域质量覆盖数据源拓展:新增数据源连通性和表结构异动检测支持的数据源(HANA、Teradata、DM(达梦)、OceanBase、Clickhouse、MongoDB、IBM DB2、PolarDB、Impala、TDH Inceptor、Kudu);新增全域资产质量支持的数据源(IBM DB2、AnalyticDB for PostgreSQL、Hologres、ClickHouse、DM(达梦)、HANA)
- 资产安全:增加安全识别任务的展示,可查看历史识别任务结果和字段识别详情;识别规则支持手动执行和更新。
- 04-Dataphin新增标签平台,完备企业数智化建设能力
- 标签平台:增加标签平台模块,包含标签及群组资产市场管理、类目设置、实体ID定义,标签群组开发分析,应用创建及管理,在应用中提供标签离线服务以及实时服务能力
三、新版本重点特性详解及应用场景示例
特性1:逻辑表详情优化
应用场景:数据规范建模,提升构建逻辑表的易用性与用户体验。
承接概念模型,将碎片化的操作整合为向导式流程操作, 并支持逻辑表字段排序功能,提升数据模型开发的效率与易用性。
特性2:数据标准
应用场景:支持标准可见权限和审批模板配置,可查看落标映射明细,标准使用
1、标准集:新增公共标准集属性,支持配置可见范围和审批模板,提升配置效率和业务适配性
支持配置公共标准集属性,可在编辑标准集时快速引用,实现一次配置多次复用,适用于多个标准集都通用的属性,如来源业务部门、标准描述等。标准属性支持配置默认值,可在创建标准时默认填充,在降低操作成本的同时也可以提升配置效率,适用于针对大部分标准属性值都一致的属性。
此外,新增支持配置不同标准集下创建的标准的可见范围,以满足精细化的权限管理诉求;支持自定义审批模板,可创建多个审批节点,每个节点支持配置多个并行审批人,并应用于标准上线审批,以支持灵活多样的审批场景。
2、标准:支持跨标准集查看全量标准,标准检索更自由更灵活。
3、支持在落标明细页面查看每个标准映射到的资产对象,同时也支持在资产目录查看每个资产对象映射到的标准,让落标稽查有据可循。
特性3:标签平台
应用场景:灵活简单开发标签
支持离线、实时、服务类标签等多种类型标签开发。提供可视化标签加工方式,通过表单、拖拉拽规则配置方式定义标签加工逻辑,有效降低标签开发成本。
应用场景:统一标签/群组资产管理、查找、应用
通过资产市场可以查看已上架标签、群组上新情况、热度以及资产详情,资产详情包括其分布信息、使用统计、加工逻辑、血缘等。选择目标资产可申请至项目或应用进行二次加工或创建服务。有效降低标签/群组资产使用成本。
应用场景:标签离线服务、实时查询,实现标签快速应用
提供应用定义以及管理功能,基于应用提供批量标签同步离线服务能力,或者接口调用实时查询服务能力,让标签使用方基于实际业务场景快速实现标签应用。
特性4:新增运行记录功能
应用场景:记录开发环境的运行历史,
便于管理与查看运行任务记录。
对于开发环境的即席查询,运行计算任务、逻辑表数据预览、派生指标冒烟测试、资产数据预览及OpenAPI数据查询提供查看代码、查看执行日志、停止运行、下载结果等功能。集中管理运行会话,减少重复劳动,提高效率。
特性5:国产化数据源支持与适配
应用场景:满足对于国产数据源的集成需求,助力打破企业数据孤岛。
新增支持了人大金仓(KingBaseES)、南大通用(GBase 8a)、GoldenDB以及TiDB四个国产数据库的离线集成。
特性6:离线集成任务配置体验优化
应用场景:提升在配置集成任务时的流畅度与用户体验。
1、离线管道任务支持自动解析上油依赖与输出名。
支持自动解析依赖对象,包括解析上游的物理节点与逻辑表节点。在没有解析出上游依赖的情况下,也支持一键添加根节点为上游依赖。支持自动析持输出对象名称。提高集成任务配置的效率、准确性与规范性。
2、集成任务菜单树支持任务筛选。
离线集成任务支持根据任务周期、任务状态、任务模式以及负责人筛选集成任务;实时集成任务支持通过任务状态以及负责人筛选,帮助用户在大量任务中快速定位自己想找的任务,提高工作效率。
特性7:实时集成至Hive支持自定义新建目标表
应用场景:实时增量集成至Hive时,可自定义建立目标表。
在进行实时增量同步至Hive时,用户可能会有在目标表添加源表没有的字段的需求。通过添加全局字段,单表支持DDL自动建表以及添加单表字段等方式,用户可根据实际的业务场景及需求建立实时集成的目标表,便于特定业务场景的使用。
特性8:实时研发体验优化
应用场景:简化用户操作,降低学习成本,提升用户体验、提高研发效率。
元表创建及使用流程优化,根据不同数据源特性做差异化处理,元表参数配置结构化,提供可选项及说明,数据源原始字段类型与Flink SQL字段类型映射关系直观展示。
特性9:实时研发流批一体任务支持绑定不同计算源
应用场景:流批任务绑定不同计算源,成本分开管控,帮助成本消耗高且敏感型的客户降本增效。
特性10:新增发布审批流程
应用场景:支持开启发布审批,提高发布环节管控力
不同企业的发布审批流程存在差异,对于开发运维一体的企业通常是由一个人员来负责,而对于组织结构复杂、权限管控较为严格的企业,通常有专门负责发布审批的角色,评估任务是否要上线、什么时间上线、以及上线后是否会对线上已有业务及相关下游应用产生影响等,从而决策是否需要发布。本期新增发布审批能力,可在项目级别配置是否开启,开启后可自定义指定发布审批人,提高发布环节管控能力,让数据生产更安全放心。
特性11:租户级任务运行配置
应用场景:支持配置租户级运行超时时间、自动重试次数和重跑间隔,提升可配置性和运行稳定性。
任务运行会消耗调度资源和计算资源。某些场景下,由于代码逻辑不合理、配置错误等原因,任务的运行时长可能会远远超出预期,长时间占据大量资源,影响其他高优先级任务的正常运行,同时也产生额外费用,因此,我们需要给任务配置运行超时时长。如果运行总时长超过配置的超时时长仍未运行结束,则会自动被终止并置为失败状态。结合基线告警或任务运行失败告警等功能,可以及时发现异常并处理,避免影响下游业务或产生预期外的费用。
此外,在在数据源网络连通不稳定、并发异常等场景下,任务运行可能会失败。这种情况下,不需要执行额外操作,仅需要重跑任务即可使任务恢复正常运行。有了自动重试功能,可以大大减少重复的人工劳动。自动重试包括重试次数和重试间隔,可结合网络情况等因素,灵活修改配置。另外一些场景,如写数据任务,即使运行失败也无法重试,否则可能会产生数据冲突。这种情况下,我们可以配置不自动重跑,来保证数据正确性。
有了自定义运行配置,可以结合业务需求变化灵活调整,提升整体运行稳定性。
特性12:表级权限申请
应用场景:对于整表进行权限的申请、审批、授权与鉴权,优化客户申请和授权体验,做到“只用管一次”。
在实际的权限管理中,既存在按照字段进行精确授权的场景,也存在着按照整表整体授权的场景。本次新增了按照数据表作为粒度的授权模式,提高了业务人员的管理效率,对非敏感表或有权限的同学,可以直接授权整表权限,后续有字段的变化等情况,会自动获得对应的权限。
特性13:安全识别整体优化
应用场景:透出安全识别任务列表并展示每次识别结果详情,提高可用性与易用性。
之前的版本中,没有识别任务的执行记录,用户如果看不到识别任务详情,不知道安全任务是否执行,是否执行成功,也不知道为什么一个字段会被识别为某个规则,无法进行针对性的优化。
本次升级新增了识别任务与识别结果的透出,用户对于识别任务的执行详情有了清晰的了解,也知道了字段被打标的具体逻辑,可以更加有针对性地优化识别规则。
应用场景:支持手动执行与更新安全识别规则。
在识别规则不严谨导致识别出错、客户自定义的规则不准确、或识别规则更改等场景下,会生成大量的错误识别记录。错误记录如没有被手动删除,遗留下来会阻塞线上使用,比如不应该脱敏的数据脱敏了。支持手动执行与更新识别规则后,对于历史上打上该规则的记录重新执行一遍校验,不满足的记录会被排除,使得识别结果更加精准。
特性14:适配安信浏览器
应用场景:适配国产奇安信浏览器,满足企业多元化浏览器需求。
四、总结与展望
本次发布的V3.7版本中,Dataphin重点围绕资产建设平台的易用性及可交付性、资产治理平台的完备性以及基础平台的稳定性和开放性进行优化与升级。在下一个版本中,我们将持续提升资产建设平台与基础平台的的功能完备性与资产治理平台的易用性,敬请期待!