一、关于Dataphin(智能数据建设与治理)
Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。
二、DataphinV3.9版本升级功能点
01- 一站式数据汇聚处理,降低中台建设起步成本
- 多平台多引擎适配:支持Hologres计算引擎,支持使用Hologres SQL任务,支持对Hologres 项目内的资产对象进行标准映射及落标稽核、质量监控、数据分类分级及查询脱敏等
- 多数据源支持:新增支持Doris,Greenplum数据源可用于离线集成;MongoDB数据源支持多版本(3.2、3.4及以上);Hive、Impala、TDH Inceptor数据源支持通过Hive Meta Server服务采集元数据
- 开放集成能力升级:丰富主题域、业务实体的增删改查的OpenAPI,满足定制化需求的开发
02-研发体验优化,加速企业数字能力建设
- 支持批量创建计算源:支持MaxCompute、Flink计算源的批量创建
- 体验优化:新增表管理功能,支持通过Excel上传、在线SQL编辑或从已有表引入的方式创建物理表,支持批量操作物理表
- 数据集成:新增输入输出组件,包括Greenplum输入输出组件、Kudu输入组件、Elasticsearch输入组件和API输出组件
- 运维补数据优化:运维补数据优化:新增支持快捷选择全部下游、指定一级子节点及其全部下游、指定起点到指定终点的链路上的所有节点等
- 实时研发:支持实时计算模板;Flink SQL支持Flink原生DDL语句;
- 标签平台:计算引擎适配CDH;体验优化;
03-数据治理能力提升,保障企业数据质量与安全
- 标准:支持在创建数据标准时快速创建质量规则,并可在质量规则页面快速引用实现批量创建,实现数据标准和资产质量的打通
- 质量:支持批量创建质量规则,支持批量对多张表配置相同的规则;优化质量分区表达式;
- 安全:内置识别规则/行业识别规则
- 权限:成员管理及权限配置支持用户组
三、新版本重点特性详解及应用场景示例
特性1:支持Hologres计算引擎
应用场景:如果您的业务部门需要进行快速的即席分析,并进行部分任务的调度,在Dataphin中使用Hologres将会是您的最佳选择。在MaxCompute完成公共层及基础的数据开发后,业务部门就可以利用Hologres开始即系分析了。
功能概览:
1. 数据集成:可将数据集成到Hologres项目或数据源,也可将Hologres项目或数据源中的数据同步到其他的数据源,让数据流转更加便捷。
2. 离线数据研发:可创建Hologres SQL的即席查询、周期或手动的调度任务,可对Hologres上的数据进行分析,或进行周期性的二次加工,提升数据研发效率。
3. 实时数仓:无需创建Hologres元表,Flink SQL可直接访问Hologres项目中的物理表,提升实时研发体验
4. 数据质量:除Hologres数据源的数据质量稽核外,还可支持Hologres项目表的数据质量规则,让数据质量得到更好的保障。
5. 数据安全:可对Hologres项目中的表进行自动及手动的分类分级的识别,并根据配置进行静动态的脱敏,保证数据安全。
特性2:支持表管理
应用场景:
- 配置化创建,修改,删除离线物理表。不再使用手动任务执行DDL的方式。
- 向物理表导入数据,方便上传测试数据。
- 表的列表式管理,批量操作表。
功能概览:
- 支持配置化创建,修改,删除表:
- 可以从已创建的表引入字段,也可以从其他表的DDL语句引入字段
- 可以随时切换到SQL模式, 编辑当前变更的DDL
- 支持导入数据
- 列表方式管理表,可筛选搜索,支持批量操作
特性3:运维体验优化升级
应用场景:
- 某企业的所有业务线有公共根虚节点,每个一级子节点的下游为一条业务线,因业务变更需要重刷某几条业务线的数据,原来的补数据方式需要多次操作,支持选择指定一级子节点及其全部下游后只需要一次操作即可满足。
- 某企业因业务变更需要大批量重刷数据,但是需要优先保证某几个报表的产出,通过指定公共起点和多个终点快速回刷链路上所有节点的数据,完成后选择补全量数据,通过将导出的已选节点列表中所有节点的节点输出名称复制到排除节点中,可以快速完成其他数据的回刷。
功能概览:
1、海量模式补数据新增多种下游选择方式:
- 支持选择指定一级子节点及其全部下游
- 支持选择当前节点的全部下游
- 支持选择起点到指定终点的链路上的所有节点
2、周期实例列表筛选优化:
- 新增按照开始运行时间筛选,可快捷选择最近1小时、今天、昨天,支持设置开始运行时间的范围
- 新增按照结束运行时间筛选,可快捷选择最近1小时、今天,支持设置结束运行时间的范围
- 新增按照定时运行时间筛选,可快捷选择0-6点、6-12点、12-18点,支持设置定时运行时间的范围
- 新增按照运行时长筛选,可快捷选择小于20min、20min~1h、1h~2h、大于2h
特性4:离线集成功能升级与体验优化
应用场景:
- 通过整库迁移生产一批集成任务时,需要对其进行统一的调度与运维管理,通过将整库的集成任务挂在同一个上游节点下,可统一对其进行暂停任务、补数据等操作。
- 在输入或输出组件选择表的时候,由于数据库性能原因,全量的表名元数据查询过慢;又或是该数据库存在很多相似表名的表时,在通过模糊搜索展示的表中无法快速定位找到想要的表。此时通过输入准确的表名直接查找与获取元数据就可解决上述两个场景。
- 分区表为集成任务的上游时,某些业务场景下无法确保每天都存在分区,有时候无新数据产生就没有当天分区,但业务方无法提前得知。原有逻辑下,只能等报错后手工置成功下游才会继续运行。需要增加可灵活配置的处理策略以应对此场景,保障下游任务不被阻塞。
- 连接API数据源时,有较多的复杂多变的场景,如生产与开发环境的API Key或Token不同;以及一个相同的绝对路径下,有多个相对路径不同url需要进行数据集成等等。
功能概览:
- 整库迁移支持自定义配置上游依赖节点,支持统一调度管理。
2、集成输入与输出组件支持输入表名直接查找表与字段信息,减少等待时间。
3. Maxcompute、Hive、TDH输入组件支持分区不存在时的处理策略,应对有时无分区产出的场景。
Maxcompute可选:置任务失败、置任务成功无数据写入、同步最新非空分区数据三种策略。
Hive、TDH可选:置任务失败,置任务成功无数据写入两种策略。
4. API数据源认证方式新增API Key和Bearer Token,应对生产开发密钥不一致场景;API输入组件新增url路径配置项,减少冗余数据源的配置成本。
特性6:实时研发功能完善
应用场景:
- 活动期间,为保证重保数据链路的稳定性(如:媒体大屏),通常会配置主备多链路,通过使用代码模板生成多个相同的模板任务,保证每个链路的代码处理逻辑一致,同时又提供差异化的配置使不同的模版任务运行在不同的集群上,当主链路有异常时能自动切换到其他备份的链路计算。
- 当企业处理不同规模的客户数据时,往往需要对不同规模的客户数据进行优先级区分处理,过滤并分流到不同的任务中计算。在业务数据计算逻辑一致的情况下,通过使用代码模板生成多个相同的模板任务,每个任务配置不同的过滤条件使得获取到的消费数据不同,为任务配置不同的资源进行调优和计算,在计算逻辑变更时只需要修改模板即可同时修改所有任务,提高效率。
功能概览:
- 支持实时代码模板,支持一套代码多种配置多次运行,
- 新增支持多种数据源:
- Apache Flink引擎数据源扩展
- 新增支持Doris数据源,支持作为来源表、结果表
- 新增支持Redis数据源,支持作为维表、结果表
- 新增支持ClickHouse数据源,支持作为结果表
- 新增支持SLS数据源,支持作为来源表、结果表
- Flink SQL支持Flink原生DDL语句,支持配置是否允许使用Flink原生DDL语句
- Apache Flink 引擎下任务运维优化支持查看物理SQL,便于错误排查
- 计算源物理表访问:
- Apache Flink引擎支持访问Hadoop计算源的物理表数据
- Flink VVP引擎支持访问Hadoop计算源的物理表数据
- Flink VVP引擎下支持在任务中配置开发环境的计算源的版本和队列
特性7:成员管理及权限配置支持用户组
应用场景:
1、新成员需要获得一批权限:小组中来了一个新成员,需要获得所有的常见权限,一张张表的申请或者授权,过于繁琐;直接将新成员加入到已有小组即可
2、权限要授权给一组成员:数据研发团队新产出了一张业务表,下游的一个小组都需要使用,但每个人都申请或者授权一次过于繁琐,这时直接将新表授权到已有用户组即可
功能概览:
1、用户组管理
在Dataphin管理中心的账号管理中,可以进行用户组的创建、管理、删除;同时可以进入到用户组的用户管理或者权限管理界面。
这里可以设置用户组是否生效,关闭后用户通过当前用户组获取的权限会失效,需要慎重关闭。
2、用户组的成员管理
用户组成员管理支持用户的添加和删除,用户组内的成员可以通过用户组获取相同的权限。
3、用户组的权限管理
在权限中心,支持查看用户组的权限。需要注意的是,权限模块仅展示当前激活的用户组,未激活的用户组的权限不生效。可以管理用户组的表权限和数据源权限,支持用户组的成员申请、续期权限,支持管理员申请、续期和交还权限。
特性8:数据标准支持快速创建质量规则
应用场景:
某集团IT团队制定了关于“性别”的数据标准,负责人在配置“性别”标准时,同时添加了“字段值域校验”的落标监控配置,要求“异常行数<0”。基于配置的落标映射规则,“性别”标准映射到了“员工信息表”的“员工性别”字段、“客户信息表”的“客户注册性别”字段、营销分析表的“客户预测性别”等字段,对应数据表的质量负责人在质量规则页面,一键引用映射到的“性别”标准已配置的值域监控规则,既提升了配置效率,也保证了规范变更能够通过修订数据标准的自动覆盖到所有相关的质量监控规则,保证了数据的稳定性和可用性。
功能概览:
1、新建数据标准:
支持在创建数据标准时快速创建相关的质量监控规则,针对该标准映射成功的资产对象,可以在数据质量页面快速引用添加对应标准配置的质量规则,实现资产的内容质量监控。
2、体验优化:
- 新增标准整体功能及使用流程引导图
- 支持通过点击标准名称快速预览数据标准详情
- 支持在标准集列表:快速创建对应的数据标准、批量导出数据标准、快速创建映射规则
- 落标映射规则优化:新增配置引导,支持根据目录过滤筛选标准集,默认填充执行配置减少操作成本
特性9:批量创建资产质量规则
应用场景:
1、需要对一批表的主键,批量配置非空、唯一等基础校验,提升整体的基础质量
2、需要对一批数据源,批量配置数据源连通性和表结构异动性监控,从而实时发现上游依赖的数据源和表的结构异常
3、需要对一批表的业务数据进行校验,如手机号格式有效性,总金额计算正确性等,及时发现业务数据的问题,提升数据质量
功能概览:
1、可以在质量规则页面,批量添加质量规则
2、批量配置质量规则。配置规则详情,并批量选择监控对象(表、字段等)。
3、确认质量规则,并进行质量规则的试跑确认、配置调度等
特性10:资产安全支持实时识别
应用场景:
1、数据变更时,进行实时识别,从而快速发现敏感数据,进行敏感数据保护。从一张敏感表读取数据到一张新表,理论上这张新表也会包含敏感数据,这时候就需要实时识别的能力,及时打上敏感数据的标签;防止在下次识别任务之前,发生敏感数据的泄露问题,从而更好的保护敏感数据。
功能概览:
在数据安全的识别规则页面,打开右上角的调度任务设置后,可以选择是否开启实时识别。
开启实时识别后,每当数据的元数据或者数据发生变更后,会按照配置的识别规则进行扫描,从而能够实时的识别敏感数据,进行敏感数据保护。
特性11:资产安全支持默认脱敏保护
应用场景:
1、针对核心的数据,需要单独定制不同的脱敏策略;未单独脱敏的敏感数据,也需要脱敏保护。敏感数据中,除了明确的姓名、手机号之外,还有大量的敏感数据需要进行脱敏。如果只需要进行脱敏保护,对脱敏后的数据结构没有要求的话,可以使用默认脱敏快速进行敏感数据保护。对有格式要求的数据,比如手机号脱敏后还是要保持原长度,则可以单独配置脱敏策略。
功能概览:
针对绝密数据,非授权的研发都不能进行查询,那么为了保护绝密数据,可以设置绝密数据统一都返回空值,这样可以快速批量的进行敏感数据保护;对于有业务开发需求,确实需要查看数据的,可以申请白名单后进行开发。这样既可以保护好敏感数据,也不影响正常的业务开发。
特性12:标签平台
应用场景:
1、在标签项目进行数据开发时,会有跨项目引表或标签值对应数据类型为decimal的情况。例如某证券公司数据开发者在通用项目A中开发基金交易指标表,为防止精度丢失对申购金额、确认金额等字段使用decimal数据类型,加入标签项目C后期望基于指标表的指标开发标签。
2、客户购买标签平台后仅做离线标签开发以及群组圈选,无在线服务诉求。例如某零售客户购买标签平台初期业务主要做离线标签开发进行标签资产管理,通过离线标签圈选群组后导出到下游业务系统,暂无标签数据在线服务应用需求。
功能概览:
- 标签开发加工离线视图支持跨项目选表,提供格式化以及SQL模版,新建视图支持选择decimal类型字段
- 标签平台资源支持一键转交负责人,标签项目角色新增访客
- 计算引擎适配CDH
- 群组离线服务任务目标数据源增加MySQL和Oracle
- 未配置服务数据源时,标签平台可正常使用,但不可新建实时视图以及开启在线服务
- 体验优化:
- 数值类标签值展示配置支持自定义分桶
- 工作台列表筛选器交互优化
- 应用详情标签、服务任务列表操作优化
- 行为关系配置条件详情浮窗优化,仅显示已配置条件
- 资产市场交互优化增强搜索心智,通过类目一键切换标签群组资产市场
特性13:数据服务
- 支持Hologres数据源;
- 单物理表服务单元:支持自定义勾选源表字段;
应用场景:
- 创建服务单元:支持选择hologres数据源类型的表作为源数据;
- 创建dataphin数据源服务:支持选择hologres计算引擎的dataphin物理表;
- 源表新增字段后,单物理表服务单元可以通过编辑的方式,将新增源字段勾选作为服务单元字段;
功能概览:
1.创建数据源类型为hologres的服务单元
1.创建计算引擎为hologres的dataphin数据源服务
3.单物理表服务单元:支持自定义勾选源表字段、编辑时添加源表新增字段作为服务单元字段;
四、总结与展望
本次发布的V3.9版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。