Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
一、Dataphin V4.5 版本升级功能点
01- 售卖多样化
- 引擎适配:支持GaussDB (DWS) 和TDH 9.3.x作为离线计算引擎
- 公共云售卖:半托管(独享模式)上线阿里云国际站;全托管(共享模式)支持购买资产运营、行级权限等模块
02- 研发能力提升,加速企业数字能力建设
- 离线集成:提供MySQL分库分表的数据集成解决方案;支持读取和写入MaxCompute Delta及Hudi湖仓表
- 离线研发:数据库SQL支持AnalyticDB for MySQL;支持上传Spark本地客户端以实现可用和任务全生命周期管理
03- 资产运营与消费提效,增加资产可用性与盘点效率
- 目录管理:支持批量导入和导出目录与资产信息,提高资产盘点效率;支持对API按照主题进行编目并上架到资产目录
- 资产详情:增加资产的血缘、质量评分和元数据变更记录,提高资产可用性
- 标签平台:新增计算标签,以满足更灵活的数值类标签加工场景。
- 数据服务:支持Dev环境下的API申请与调用,优化API测试流程。
二、新版本重点特性详解及应用场景示例
特性 1:MySQL 分库分表数据集成解决方案
应用场景:
随着业务的发展,数据库表中的数据量会不断增加。例如,中大型电商平台,每天会产生海量的订单信息。当订单数据量达到一定规模时,单个数据库表可能无法承受存储和查询的压力,查询、插入、更新和删除操作的性能会显著下降。类似的场景,客户一般使用分库分表来解决,将同一个业务表,使用相同表名或使用某种规则编码的表存储在不同的库中,来降低单表的存储。这种处理办法在业务方使用时非常方便,但为了数据集成增加了复杂度,影响了后链路的数据研发及分析。
如果业务表不仅分布在不同的库中,而且分布在不同的MySQL实例下,这意味着,我们需要使用不同的连接信息在一个任务内完成分库分表的集成。
功能概览:
- 离线集成MySQL输入组件选择多表同步时,可选择多个不同的数据源下的库;
- 支持查看已选择的库列表;
- 支持通过精确表名或类正则的方式匹配不同库下的表,将所有符合匹配条件的表进行同步。
特性 2:离线集成支持读取和写入MaxCompute Delta及Hudi湖仓表
应用场景:
某客户采用湖仓一体架构,多源异构的业务数据通过Dataphin接入到Hudi,其中历史全量数据通过离线集成到Hudi,增量数据通过实时集成到Hudi,最后基于Hudi进行实时研发。
功能概览:
- 离线集成管道支持读取和写入MaxCompute Delta表
- 离线集成管道支持读取和写入Apache Hudi表
- 整库迁移目标端支持MaxCompute Delta及Apache Hudi表
特性 3:通过Spark本地客户端提交Spark Batch任务,实现客户端高可用和任务全生命周期管理
应用场景:
很多使用 Spark 作为计算引擎的客户,会使用 Java或者Scala开发的Spark Jar 作业,也可能使用 PySpark 作业,在旧版本,用户必须指定一台外部机器作为客户端。外部机器失效将导致任务无法正常调度,运维中kill任务无法同步终止yarn的job。本次版本,将 Spark 客户端部署在 Dataphin 内部,用户可以通过Dataphin的本地客户端提交作业到yarn。
功能概览:
- 在 Hadoop 集群中上传相应版本的 Spark 客户端
- 创建 Spark Batch 时,可指定客户端
特性 4:批量导入导出目录及资产信息配置,提升资产盘点效率
应用场景:
- 运营管理员小D有一份线下梳理好的资产目录Excel文件,希望快速导入Dataphin完成初始化,不用一个个手动录入
- 定义好专题目录后,小D给每个资产类型定义了需要填写的属性信息,包括业务属性、技术属性、管理属性,需要由不同角色填写,但是分别授权操作又比较繁琐,于是小D想用钉钉表格线上协同操作,再一次性导入Dataphin批量更新资产配置
功能概览:V4.5 版本起,支持通过 Excel 模板批量导入导出目录和资产配置啦,大大提升提升协同配置效率和资产盘点效率!
- 可下载目录批量导入Excel模板,按照模板调整梳理好的内容后再批量导入;后续需要更新目录,也可以批量导出最新的目录配置修改后再上传;可以通过导入的方式批量新建资产专题和目录,也可以重命名、移动、删除目录,高效便捷!
- 除了目录,也支持批量下载资产配置信息的 Excel 文件,更新后再重新导入 Dataphin 系统,实现资产信息的快速更新。
- 支持查看批量导入导出记录,针对导入操作失败的对象,可一件下载异常记录,包括导入配置和异常提示,对应的异常单元格也会高亮展示便于修改,结合提示修正信息后再重新导入,就可以快速修复问题。
特性 5:资产详情丰富:血缘、质量评分、变更记录助力确信资产可用性
应用场景:
- 公司希望提升西部地区的物流配送效率,负责人希望基于现有的订单物流情况制定目标,需要分析师小 Q 帮忙产出对应看板。小 Q在资产目录搜索到了几张和”订单物流“相关的表,但是不知道这些表的数据是否完整、质量是否可靠
- 小Q发现最近一个季度”物流异常“的订单比例逐步上升,归因分析需要用到上游的订单物流明细表,但是不知道具体是哪些表
- 小Q搭建好的分析看板突然有个指标数据缺失了,排查到数据集对应的表,发现指标已经被删除了,小Q想知道指标是什么时候删除的,这张表还有哪些变更
功能概览:V4.5 版本起,支持在资产上架配置时指定是否在目录详情页展示血缘关系图、质量概况、元数据变更记录,从而提供更多信息助力提升确信资产可用性。
- 血缘关系:支持从系统血缘、表血缘、字段血缘 3 个视角查看资产血缘关系。系统血缘可帮助我们快速厘清数据流向,表血缘和字段血缘可协助分析数据依赖链路,在数据出现异常时主动追溯上游,或在数据变更时提前进行影响分析并进行沟通,避免意外变更影响下游业务使用。
- 质量概况:支持查看整表或指定字段的质量六性维度评分,此外,还可以查看参与质量分计算的质量规则统计及规则校验记录,获取更多的信息用于评估数据可靠性。
- 元数据变更记录(表):支持查看表资产的元数据变更记录,包括变更类型、变更概况;支持任意两个版本之间的对比;最近一个版本存在字段变更时,也可以查看下游影响分析
特性 6:计算标签:一种覆盖各类标签场景的加工方式
应用场景:
在数字化浪潮中,企业对数据的精细化管理和高效利用需求日益增长。但现有的映射类标签、行为类标签、组合标签难以满足所有标签的计算场景。比如需要将数值类的标签经过一定的计算规则计算后得到,此时亟需需一种更高级、更便捷的加工方式来加工这类标签。因此,“计算标签”应运而生,针对企业在数据计算和分析方面的需求,我们可以通过可视化的方式,将复杂的标签计算结果直接作为标签值,且支持多种操作符,大大提高了数据处理的效率。
功能概览:
- 离线标签类型新增“计算标签”,支持基于已有标签通过数操作、逻辑操作、关系操作、函数构建标签计算逻辑
特性 7:API资产编目及上架
应用场景:
数据部门在服务各个业务部门和业务场景的过程中,沉淀和积累了很多的数据API,可极大地加快数据服务于业务的响应速度。但是在服务业务部门的过程中,发现支持问询和答疑的工作量很大,业务部门的开发人员找不到相关的API,也无法确认找到的API能满足自己的需求。针对这一问题,我们在资产目录上提供了API编目、属性丰富和上架的功能,以帮助数据部门减少服务咨询的成本在数字化转型的浪潮中,越来越多的企业依靠数据服务API来驱动业务运营和技术创新。然而,管理和发布这些API常常面临挑战。为了解决这一问题,我们推出了智能API管理与发布平台,简化API资产的管理、配置和发布过程,让企业高效运作。
功能概览:
- 可支持对数据服务API资产的编目并上架。可按场景和用户创建API专题,并进行编目。
- 可支持配置自定义属性,比如我们可以设置管理属性、业务属性等自定义属性,并在在API资产上架时设置属性值。
- API资产同样支持手动上架和自动上架可支持手动上架及配置规则自动上架。
- 好了,现在我们的用户就可以在目录上搜索API了。
特性 8:数据服务支持Dev环境下API的申请与调用
应用场景:
在现代数据驱动的业务环境中,API的稳定性和可靠性对企业业务至关重要。数据服务的API在正式投入生产之前会对其进行多次的测试以及调试,但是由于Dataphin内部测试环境与实际的生产环境可能存在差异,在实际调用过程中仍可能暴露潜在的问题,影响业务的稳定性。为了帮助企业在API上线前做好充分准备,我们支持调用Dev环境下API的申请与调用功能,支持调用开发环境API用于实际测试场景,提前发现API的潜在问题,降低API上线后的错误率,提高API易用性和稳定性。
功能概览:
- 支持开发用户授予开发环境的API的使用权限给应用。
- 支持查看并下载开发环境下的API文档。
- 调用开发环境API时,支持通过构造apiVersion请求参数,切换开发环境API调用的版本,以对比API不同版本在实际调用中的运行情况。
三、总结与展望
下个版本中,Dataphin 多引擎适配能力再升级,可对接Databricks底座;数据库SQL将会支持Doris和SelectDB;同时表管理将深度结合湖表格式,支持Hudi和MaxCompute Delta表格式;实时集成支持增全量一体帮您快速上云;调度资源将支持弹性伸缩,大大提升资源利用率;数据安全将支持手动添加全域表的分类分级;资产目录将支持数据源表和指标的数据预览...更多精彩功能,敬请期待!