01 关于Dataphin(智能数据建设与治理)
Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。
02 DataphinV3.9升级功能速览
01- 一站式数据汇聚处理,集成能力提升
- 多平台多引擎适配:
支持Hologres计算引擎,可使用Hologres SQL任务,以及对Hologres 项目内的资产对象进行标准映射及落标稽核、质量监控、数据分类分级及查询脱敏等 - 多数据源支持:
新增支持Doris,Greenplum数据源可用于离线集成;MongoDB数据源支持多版本;Hive、Impala、TDH Inceptor数据源支持通过Hive Meta Server服务采集元数据 - 开放集成能力升级:
丰富主题域、业务实体的增删改查的OpenAPI,满足定制化需求的开发
02-研发体验优化,加速数字能力建设
- 批量创建计算源:
支持MaxCompute、Flink计算源的批量创建 - 新增表管理功能:
支持通过Excel上传、在线SQL编辑或从已有表引入的方式创建物理表,可批量操作 - 数据集成优化:
新增Greenplum输入输出组件、Kudu输入组件、Elasticsearch输入组件和API输出组件 - 运维补数据提效:
可快捷选择全部下游、指定一级子节点及其全部下游、指定起/终点链路上的所有节点等 - 实时研发:支持实时计算模板;Flink SQL支持Flink原生DDL语句
- 标签平台:计算引擎适配CDH;交互能力优化
03-数据治理能力提升,保障数据质量与安全
- 标准:
支持在创建数据标准时关联质量规则,并可通过勾选关联标准快速创建质量规则,实现数据标准和资产质量的打通 - 质量:
支持批量创建质量规则,可批量对多张表配置相同规则;优化质量分区表达式 - 安全:内置识别规则/行业识别规则
- 自定义权限管理:成员管理及权限配置支持用户组
03 重点特性的应用场景示例
特性1:支持Hologres计算引擎
- 应用场景01:
如果您的业务部门需要进行快速的即席分析,并进行部分任务的调度,可以在MaxCompute完成公共层及基础的数据开发后,业务部门就能在Dataphin中利用Hologres开始即席分析了。
特性2:高效运维自定义补数据
- 应用场景02:
某企业的所有业务线有公共根虚节点,每个一级子节点的下游为一条业务线,因业务变更需要重刷某几条业务线的数据,原来的补数据方式需要多次操作,支持选择指定一级子节点及其全部下游后只需要一次操作即可满足。
- 应用场景03:
某企业因业务变更需要大批量重刷数据,但是需要优先保证某几个报表的产出,通过指定公共起点和多个终点快速回刷链路上所有节点的数据,完成后选择补全量数据,通过将导出的已选节点列表中所有节点的节点输出名称复制到排除节点中,可以快速完成其他数据的回刷。
特性3:离线集成能力
- 应用场景04:
通过整库迁移生产一批集成任务时,需要对其进行统一的调度与运维管理,通过将整库的集成任务挂在同一个上游节点下,可统一对其进行暂停任务、补数据等操作。
- 应用场景05:
在输入或输出组件选择表的时候,由于数据库性能原因,全量的表名元数据查询过慢;又或是该数据库存在很多相似表名的表时,在通过模糊搜索展示的表中无法快速定位找到想要的表。此时通过输入准确的表名直接查找与获取元数据就可解决上述两个场景。
- 应用场景06:
分区表为集成任务的上游时,某些业务场景下无法确保每天都存在分区,有时候无新数据产生就没有当天分区,但业务方无法提前得知。原有逻辑下,只能等报错后手工置成功下游才会继续运行。需要增加可灵活配置的处理策略以应对此场景,保障下游任务不被阻塞。
- 应用场景07:
连接API数据源时,有较多的复杂多变的场景,如生产与开发环境的API Key或Token不同;以及一个相同的绝对路径下,有多个相对路径不同url需要进行数据集成等等。
特性4:实时研发功能
- 应用场景08:
活动期间,为保证重保数据链路的稳定性(如:媒体大屏),通常会配置主备多链路,通过使用代码模板生成多个相同的模板任务,保证每个链路的代码处理逻辑一致,同时又提供差异化的配置使不同的模版任务运行在不同的集群上,当主链路有异常时能自动切换到其他备份的链路计算。
- 应用场景09:
当企业处理不同规模的客户数据时,往往需要对不同规模的客户数据进行优先级区分处理,过滤并分流到不同的任务中计算。在业务数据计算逻辑一致的情况下,通过使用代码模板生成多个相同的模板任务,每个任务配置不同的过滤条件使得获取到的消费数据不同,为任务配置不同的资源进行调优和计算,在计算逻辑变更时只需要修改模板即可同时修改所有任务,提高效率。
特性5:灵活的成员管理及权限配置
- 应用场景10:
新成员需要获得一批权限:小组中来了一个新成员,需要获得所有的常见权限,一张张表的申请或者授权,过于繁琐;直接将新成员加入到已有小组即可。
- 应用场景11:
权限要授权给一组成员:数据研发团队新产出了一张业务表,下游的一个小组都需要使用,但每个人都申请或者授权一次过于繁琐,这时直接将新表授权到已有用户组即可。
特性6:标准与质量互通
- 应用场景12:
某集团IT团队制定了关于“性别”的数据标准,负责人在配置“性别”标准时,同时添加了“字段值域校验”的落标监控配置,要求“异常行数<0”。
基于配置的落标映射规则,“性别”标准映射到了“员工信息表”的“员工性别”字段、营销分析表的“客户预测性别”等字段,对应数据表的质量负责人在质量规则页面,一键引用映射到的“性别”标准已配置的值域监控规则。
这样既提升了配置效率,也保证了规范变更能够通过修订数据标准的自动覆盖到所有相关的质量监控规则,保证了数据的稳定性和可用性。
特性7:资产安全实时识别
- 应用场景13:
从一张敏感表读取数据到一张新表,理论上这张新表也会包含敏感数据,这时候就需要实时识别的能力,及时打上敏感数据的标签,防止在下次识别任务之前,发生敏感数据的泄露问题,从而更好的保护敏感数据。
特性8:资产默认脱敏保护
- 应用场景14:
针对绝密数据,非授权的研发都不能进行查询,那么为了保护绝密数据,可以设置绝密数据统一都返回空值,这样可以快速批量的进行敏感数据保护;对于有业务开发需求,确实需要查看数据的,可以申请白名单后进行开发。这样既可以保护好敏感数据,也不影响正常的业务开发。
特性9:标签开发优化
- 应用场景15:
某证券公司数据开发者在通用项目A中开发基金交易指标表,为防止精度丢失对申购金额、确认金额等字段使用decimal数据类型,加入标签项目C后期望基于指标表的指标开发标签。
04 总结与展望
本次发布的V3.9版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。