三、新版本重点特性详解及应用场景示例
特性1:支持ArgoDB计算引擎
应用场景:如果您已经有了星环的ArgoDB,您可以通过Dataphin纳管这些资产,并可同时纳管其他的大数据平台,通过统一的平台进行统一的大数据研发和治理。
功能概览:
- 数据集成:可将数据集成到ArgoDB中,也可将ArgoDB的数据同步到其他数据源中。
- 离线数据研发:可创建ArgoDB SQL的即席查询、周期或手动的调度任务,可对ArgoDB上的数据进行分析,或进行周期性的二次加工,提升数据研发效率。并可通过Dataphin的智能运维保障ArogDB任务的产出及时性和稳定性,降低运维成本。
- 数据治理:通过Dataphin的数据目录,可盘点ArgoDB的资产;除ArgoDB数据源的数据质量稽核外,还可支持ArgoDB项目表的数据质量规则,让数据质量得到更好的保障。可对ArgoDB项目中的表进行自动及手动的分类分级的识别,并根据配置进行静动态的脱敏,保证数据安全。
- 标签平台:通过标签平台可快速将ArgoDB中的数据资产加工成标签,并通过标签市场服务业务部门
特性2:支持数据源的跨租户发布
应用场景:在生产开发物理隔离的环境下,数据源可在目标环境重建并修改为目标环境的配置
功能概览:
- 可导出数据源配置,可设置是否导出认证信息及连接信息可导出数据源配置,可设置是否导出认证信息及连接信息
- 导入数据源后可设置替换规则,替换圈选的数据源的配置。通过替换这些配置,可将这些数据源的配置项更新为目标环境对应的配置项。比如在发布到生产环境时,可将业务数据库的地址变更为线上的数据库或者备库。
- 可支持同名同类型的数据源映射到目标环境的数据源。当目标环境中已经创建好了数据源,可进行快速映射,兼容这些数据源用于集成任务的发布。
特性3:自定义数据下载及权限审批策略
应用场景:
场景 1:数据下载:数据下载后脱离平台后即无法管控数据的再次分享及使用,因此需要 ① 可管控的数据下载,可根据项目开启或关闭数据下载,是否需要审批以及审批流程;② 下载的文件可设置水印用于警示和提醒用户注意数据安全
场景 2:权限审批策略:不同的数据表可配置不同的审批流程。如开发环境可设置为免审批,生产环境数据可根据字段的敏感等级发起不同的审批流程,L2级别及以下的字段项目负责人审批,L3及以上的需要安全管理员审批。
功能概览:
支持数据结果下载格式(CSV、Excel),并且可以使用Excel格式增加水印,并为项目配置数据下载审批策略。用户可以根据需要开启或关闭数据结果下载功能,可以设置数据下载是否需要审批,并可使用系统内置的审批模板或自定义数据下载审批模板用于审批。
可根据项目及板块归属范围、环境、表类型(逻辑表、逻辑视图、标签逻辑表、物理表、物理视图、元表、镜像表)、数据安全等级、权限类型(查表数据、改表数据、改表结构、删除表)设置审批策略,可开启或关闭权限申请,设置是否需要审批以及选择权限申请审批模板。
特性4:自定义资源组助力您管控资源分配,保障核心任务稳定运行
应用场景:
场景 1:核心任务保障:希望保证核心业务库的集成任务按时运行,那么可以给对应的集成任务配置“集成专用资源组”,其他非核心任务使用项目默认资源组。
场景 2:按需分配 :支持按照租户、项目、任务粒度分配资源,可使不同业务部门所使用的资源解耦,从而现实各业务部门按需结算等应用场景。
场景 3:临时批量运维操作:每月初都需要回刷上个月的订单数据以更新退款信息,可以创建一个“订单数据回刷专用资源组”,并在补数据时指定使用该资源组,从而保证周期实例的资源消耗不受补数据实例的影响。
功能概览:
每个租户创建时需要指定当前租户可使用的调度资源量,并在创建成功后默认生成一个“租户默认资源组”;此外,可新增自定义资源组。自定义资源组支持状态管理,包括:停用/启用/删除;此外,每个自定义资源组都需要设置应用场景:应用场景为“任务日常调度”的资源组可用于即席查询、任务测试运行及周期调度,应用场景设置为“批量运维操作”的资源组可以在批量补数据等运维操作中使用。
Basic模式项目下,即席查询、任务测试运行、周期调度均使用项目配置的调度资源组;Dev-Prod模式项目下,即席查询、任务测试运行及开发环境调度默认使用开发项目配置的项目默认资源组,不支持自定义修改;生产任务周期调度默认使用每个生产任务指定的资源组。特殊的,如果生产任务指定的自定义资源组为“项目默认资源组”,将根据项目配置的修改自动跟随变更。
特性 5:“个人数据中心”助力聚焦个人相关资产;一键转交数据表负责人让资产交接无压力
应用场景:
场景 1:某员工即将离职,需要将自己负责的表统一转交给交接人员,可以在个人数据中心一键转交所有数据表负责人
场景 2:项目管理员需要检查某张核心表的负责人转交详情做审计,可以通过单张数据表的负责人转交记录进行查看
功能概览:
资产目录首新增“个人数据中心”入口,支持快捷查看“我负责的”资产、“我”作为管理员可管理权限的资产以及“我”已经在 Dataphin 被授权的资产,可以更聚焦于自己相关的数据,沉浸式搜索。此外,在个人数据中心可以一键快捷转交自己负责的所有数据表,大大降低了工作交接场景下负责人的修改成本,也降低了离职导致的表权限无法审批的风险。
此外,在每个数据表的详情页面,表负责人、项目管理员或板块管理员也可以执行“转交负责人”操作,并支持查看转交记录,以作为相关审计的依据。
特性 6:基于标准系统属性快速配置质量监控;映射关系支持手动干预
应用场景:
场景 1:通过引用系统属性,创建属性值和监控规则的关联,属性填写完成后根据属性值自动完善对应的质量规则配置
场景 2:通过落标映射规则的自动圈选逻辑生成的预期外的映射结果,将该映射关系手动“置为无效”,后续不会再针对该映射关系进行落标评估监控
功能概览:
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系当前可以通过落标映射规则来管理;生成映射关系后,对象是否遵循了映射到的标准定义则通过落标监控评估来判断。
落标映射关系是指资产对象和数据标准之间的关联关系,根据关联关系是否生效,可以分为:已映射关系、无效映射关系。Dataphin 为您提供多种映射关系的查看视角,包括按数据表汇总及全部展开,可满足不同的查看分析诉求。针对不合理的映射关系,直接执行“置为无效映射”操作;同样的,如果您需要移除某些无效映射关系重新加入落标监控评估,可以执行“解除无效映射”操作。
Dataphin 提供多条内置内容质量监控的公共系统属性,如:值域、是否唯一值、是否可为空值/空字符串;如果标准集引用了公共系统属性,则在该标准集下新建数据标准时,如果填写了对应属性值,则会根据填写的属性值自动生成对应的数据质量监控规则而无需手动配置,如:引用“值域”属性,属性的取值方式配置为“范围值-范围区间”,那么在创建数据标准时,填写完成值域属性就会自动生成 1 条“字段值域监控”的质量规则,规则配置和填写的区间值一致,校验配置为“异常行数<=0”,无需额外手动配置。
此外,本页也支持了针对字段或指标在数据标准侧配置的分类分级结果和安全模块打标的分类分级结果进行对比,从而为对安全识别结果修正给出参考建议。
特性7:通过质量整改工作台能力,实现质量问题的跟踪和质量治理的闭环
应用场景:
场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了一个新的待治理项,通过查看校验详情,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理异常数据后,点击重新校验,校验通过即可完成该治理项。
场景2:某财务部门,发现月度财务账单核对后存在差异。通过质量校验发现,有上下游相关的5张表都出现了数据口径不一致的问题,这时可以将5张表放入一个 财务数据治理流程 中,通过流程统一跟踪和治理出现的质量的问题,治理后由财务部门进行最终的数据验收。
功能概览:
1、治理工作台
质量校验时发现的质量问题,会出现在治理工作台中,等待负责人处理。
通过治理工作台,可以通过以下治理操作:发起治理、忽略本次异常、添加白名单、重新校验、通知负责人进行具体的问题治理;或者查看问题的历史操作记录,了解历史问题和治理方案。
2、治理流程
在治理工作台中发起治理后,可以在治理流程列表中看到和自己相关的治理流程,可以在治理流程中对质量问题进行进一步处理
在治理流程中,可以对质量问题进行忽略、重新校验等治理操作,或者到研发模块,修改数据产出流程。完成治理后,治理人可以发起验收,提交整个治理流程到验收人处理。验收人可以根据实际情况通过验收或者打回重新整改。
3、治理白名单
对于暂时不需要治理的治理项, 可以放入白名单进行统一管理,在白名单有效期内,质量校验仍会正常执行,但不会生成治理项。在治理白名单页面,可以针对白名单进行统一管理,如修改白名单生效时间和删除白名单等。
特性8:通过归档和分析异常数据,快速定位质量问题
应用场景:
场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了质量监控报错,通过查看异常数据,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理后下游可以正常使用。
场景2:某集团公司希望对员工数据进行校验,查看哪些员工的联系方式等信息没有填写,需要将信息缺失的员工数据下载到一个excel中,让各个子公司填写后重新上传管理。
场景3:某财务部门发现账单核对后存在差异,通过对销售金额数据进行校验,发现表格中有一个商品的总金额 不等于 单价*销售量,经过排查,是复制数据时仅复制了值,没有复制公式导致数据出错。
从上面的场景中可以看到,数据质量校验和异常数据归档在业务、管理、财务等多个场景都可以帮助快速定位问题,提升数据质量。
功能概览:
1、开启异常归档
在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。
2、数据下载和分析
2.1、数据下载
可以在校验记录页面,下载本次校验的异常数据,用于后续分析。需要注意的是,数据下载有一定的条数限制,数据量大的情况下建议到异常归档表中查看异常数据。
2.2、分析异常归档表
可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。
3、异常归档表配置
只有配置了异常归档表后,才可以将异常数据归档到表。具体配置方式为:
进入质量模块,点击左侧质量规则,点击具体一张质量监控表,进入监控详情,可以看到上方有异常归档的页面,点击进入异常归档表配置。下方展示了一张已经配置好的异常归档表。
特性9:更智能的成员管理:自动同步用户与部门信息,用户组支持按照部门添加
应用场景:
场景1:之前Dataphin中需要添加一个成员,必须要先手动同步,然后在手动添加,该用户才能正常登录。对于用户较多的组织,一个个手动添加比较麻烦。我们在本期提供了成员的自动同步和自动添加机制,这样所有合法用户都可以直接进行登录,简化了添加成员的步骤。
场景2:组织内部有部门(从子公司到小组)和成员的对应关系,同一部门的成员之间会有很多相似的权限。Dataphin使用用户组管理用户的权限,本期支持按照部门生成用户组,这样方便对同一个部门的成员权限进行统一的管理。
功能概览:
1、自动添加成员
成员管理目前支持了自动同步和自动添加成员,自动添加成员可以选择下面两种方式:
1、自动添加所有成员:同步的所有有效用户都会添加,效率更高,可以提前管理
2、组织内成员登录时添加:同步过的有效用户,登录时自动创建成员,成员管理更干净
2、用户组支持按照部门管理成员
在同步了成员的部门信息和部门结构之后,可以在用户组管理时按照部门来添加成员到用户组中。这样当后续部门的成员有变动后,用户组中的成员会自动变化,不用额外的操作即可保持权限的一致性。
特性10:标签属性、下游依赖查看交互优化,操作更便捷
应用场景:之前开发者仅能通过标签列表查看标签属性,如关联实体、实体ID、标签类型等,对于该标签申请至应用、项目或下游依赖信息仅能在标签上架至资产市场或操作标签下架/下线时展示,查看及编辑标签属性及设置不便。
功能概览: 该版本对标签详情查看交互进行优化,只需在项目列表中点击标签名称就可查看到标签属性及依赖详情,操作更便捷,信息更聚焦。
特性11:简化标签类型为实时、离线两类,由数据来源区分实时视图加工方式,降低理解成本
应用场景: 该版本将服务视图与实时视图类型整合,仅需根据数据来源选择加工方式即可实现实时视图快速构建。例如,通过“下单事件”定义视图并开发“最近1天累计消费金额”实时标签,开发者可以选择“事件预加工”加工方式;通过查询HBase中的交易数据定义实时视图并开发“最近7天下单数”标签,则可选用“HBase视图”来源表字段解析的方式进行实时视图构建;通过三方开放平台采买数据定义实时视图开发标签时,则可通过解析“HTTP视图”返回参数定义实时视图。
功能概览: 点击新建实时视图,以数据来源于事件、数据来源于表以及数据来源于接口请求对加工方式进行分类。
特性12:全局、项目角色增加“标签业务员”及“项目业务员”,实现业务员沉浸式开发衍生标签及应用标签诉求
应用场景:针对无视图定义、基础标签开发诉求和能力的项目成员,项目管理员可为其赋予“项目业务员”角色,项目业务员仅支持开发衍生标签、圈选群组。针对无标签开发、群组圈选诉求的租户成员,组织管理员可以为其赋予“标签业务员”角色,标签业务员仅支持加入应用,并在资产市场申请标签、群组权限应用权限创建标签服务。从项目以及全局视角实现业务员沉浸式开发标签以及应用标签诉求。
功能概览: 超级管理员在成员管理界面可以选择租户成员赋予“标签业务员”角色,项目管理员在项目成员管理可为租户成员赋予“项目业务员角色”。
特性13:资产市场类目支持本地文件导入,一键快速新建。群组资产市场增加群组规模及群组血缘,群组详情更丰富。
应用场景:在前期业务规划时,通过csv文件整理的标签类目可以通过本地文件上传的方式一键生成资产市场标签、群组类目,实现类目快速创建,降低类目创建成本。群组资产市场详情增加群组规模以及群组血缘,资产成员可以查看上架群组历史规模、上游数据来源以及下游数据应用情况。
功能概览:超级管理员在资产市场管理中点击设置市场类目时,可通过导入类目上传标签类目文件,实现类目快速创建。资产市场成员查看群组市场群组详情时,可查看群组规模以及血缘信息。
特性14:数据服务-市场支持API文档下载(生成可执行的代码),便于线下完成接口对接的业务场景
应用场景:与企业合作的第三方技术人员需要调用在数据服务开发好的API时,由于第三方人员属于外部人员,往往没有权限登录到系统查看API的文档,需要企业的开发人员花大量的时间与第三方技术人员反复沟通确认。API文档支持下载并且生成对应API的可执行代码后,企业的技术人员只需要将对应的API文档下载下来,第三方技术人员根据文档即可完成API的调用对接。
功能概览:数据服务的成员在市场模块,勾选需要下载API文档即可完成批量下载,下载的API文档内包含了API调用的参数信息、API调用可执行代码、API调用返回结果的具体示例。
特性15:运维监控统计数据存储和查询的时间范围支持客户按需配置
应用场景:不同企业结算周期不一样,有按月、按季度、按年的,之前固定只存近一个月的数据无法满足不同企业的需求。支持自定义配置后,客户根据自己的资源情况和结算统计周期,配置存储多久的运维监控统计数据,如果需要一次性查询或者导出较长时间跨度的运维监控统计数据,也支持自定义配置运维监控查询的时间范围跨度。
功能概览:在管理-系统配置-运维监控配置,支持自定义配置:统计数据存储周期,单次查询的最大跨度,配置后会影响运维监控查询条件:日期区间(可选的日期范围是根据配置的存储周期、单次查询可选的时间跨度是根据配置的单次查询最大跨度)。
特性 16:计算任务列表助力计算任务的管理与维护
应用场景:
当一个项目下的计算任务非常多之后,就面临以下挑战:
- 根据有限的信息,查找定位到某个具体的任务。比如,根据计算任务的输入表,或 任务类型+状态+责任人。
- 列举一批任务,快速概览任务的信息,或对比任务差异
- 对一批任务批量做同一个设置
功能概览:
- 计算任务列表将计算任务的主要属性作为列表项展示出来,无须打开任务即可同时看到一批任务的属性信息。
- 计算任务列表有很多筛选条件,可以灵活方便的查找定位任务。
- 提供批量操作,极大提高了操作效率
特性 17:支持项目级监控告警及逻辑表整表级别的监控告警
应用场景:
用户在进行任务的监控告警配置时,往往会遇到几点问题:
1、任务量大,批量监控告警配置数量上限少,需要多次重复操作
2、无法查看和筛选未配置监控告警的任务
3、为任务配置监控告警后批量编辑和修改操作不方便
4、每次新的任务上线或者逻辑表中有新增字段时后都需要人工进行告警配置
针对以上问题,dataphin新增支持项目级监控告警,支持按照任务类型/调度类型配置项目级别的监控告警。对项目下监控范围内的所有对象均生效,符合条件的新增任务将自动配置对应监控。支持逻辑表整表级别的监控告警,逻辑表中新增加的字段将自动配置监控告警。
功能概览:
1、新建项目级监控告警
2、查看和编辑项目级监控告警
特性 18:实时作业监控指标完善,支持查看checkpoint、IO、watermark、CPU、memory、JVM六大类40余种监控指标
应用场景:
实时监控指标可以帮助用户及时了解Flink SQL作业的运行情况,包括作业的吞吐量、延迟、并发度、资源利用率等关键指标。这些指标可以帮助用户快速发现作业运行的问题,比如性能瓶颈、资源竞争等,及时进行优化和调整,以保证作业的高效稳定运行。同时,实时监控指标还可以帮助用户进行容量规划和资源优化,以最大限度地提高作业的处理能力和质量。因此,对于使用Flink SQL的用户来说,实时监控指标是非常重要的工具。
功能概览:
开源flink引擎下支持查看checkpoint、IO、watermark、CPU、memory、JVM六大类40余种监控指标
特性 19:支持使用Python调用dataphin数据源JDBC执行查询
应用场景:
使用Dataphin数据源可以对Dataphin的物理表和逻辑表资产进行自由的分析和查询,当前越来越多的企业使用python语言进行数据分析。Dataphin在3.10版本支持了python调用dataphin数据源,数据分析员可以通过python的方式连接到dataphin数据源进行数据查询和统计分析。
功能概览:
提供具体的调用示例和调用步骤,帮助企业使用python调用dataphin数据源查询数据。
四、总结与展望
本次发布的V3.10版本中,Dataphin新增了ArgoDB作为计算引擎;针对客户不同的管控诉求,提供了自定义审批模版、自定义下载和权限审批策略的管控能力;优化了自定义数据源的元数据获取和创建流程;在数据集成、实时研发、数据服务中都新增了多种数据源的适配;在资产治理中,也支持了质量整改、异常数据归档、标准关联质量。
在下一个版本中,我们将针对Dataphin的数据分析能力、数据隐私计算和安全流通、Impala引擎等相关能力进行升级,增强产品能力,持续提升用户体验。