一、关于Dataphin(智能数据建设与治理)
Dataphin是阿里巴巴集团OneData数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。
Dataphin支持在多种大数据架构之上构建数据中台,具备一站式数据采、建、管、用全生命周期管理能力,显著提升数据治理水平,在计算引擎利旧降本基础上满足企业多元化数智应用需求,为企业上云用数赋智夯实数字化能力底座。
二、DataphinV3.5版本概览
01-一站式数据汇聚处理,降低中台建设起步成本
- 多平台多引擎适配:新增支持以Hadoop为元仓时,通过多租户支持纳管多个不同的计算平台;通过MaxCompute+DLF支持数据湖元数据的统一管理、研发、质量及数据安全功能。
- 高效数据集成:新增支持Tablestore、Kudu离线数据集成、SAP Hana跨Schema读取、FTP输入组件优化,并提升了实时集成稳定性及质量。
02-阿里方法论(OneData)指导数据研发与治理
- 数据研发赋能:提升了在开源Flink引擎下实时研发的能力,支持自定义数据源类型,支持Hive数据源;建模研发优化支持派生指标基于最大分区的计算,支持无下游依赖时的事实逻辑表的名称变更。
- 治理实践输出:新增支持数据标准的创建与管理,数据质量稽核新增支持Oracle、PostgreSQL、SQL Server、SAP Hana;支持权限审计、权限记录的下载。
03-平台易用性升级,加速企业数字能力建设
- 使用体验优化:内置帮助文档,独立部署环境下可在使用中随时查看;利用MaxCompute短查询加速的能力提升了即席查询的性能。
- 智能运维诊断:新增支持任务运行诊断的能力,可排查任务等待、延迟及失败的原因;针对SQL任务优化了调度资源分配逻辑,提升了SQL任务的调度性能,提升SQL任务在调度系统的吞吐量;优化了OpenAPI的稳定性和质量。
- 满足客制需求:按照自定义租户名称展示页签标题及favicon,支持对接外部审批系统,支持数据服务消费相关的API以支持数据服务API上架到客户自己的资产管理及目录平台。
三、新版本重点特性详解 及应用场景示例
特性1:多租户能力
应用场景:支持多个计算平台的纳管,充分利用已有资产,降低中台建设起步成本
很多客户在升级到数据中台前,已经开始了部分数据资产的建设,在不同的部门或业务中使用Hadoop集群或者星环TDH的集群用于离线数据研发。在升级到企业级的数据中台后,若能利用原有集群的计算能力,逐步迁移到新的计算平台,将更好的利用已有的资产,降低企业建设数据中台的起步成本。
在新版本中,Dataphin将支持以MaxCompute或Hadoop(包括CDH5、CDH6、CDP、星环Inceptor等)为元仓,支持利用Dataphin的多租户的能力,用不同的租户纳管不同的计算平台,一套平台统一数据研发平台,统一研发体验。
应用场景:支持租户间数据共享和推送,灵活进行集团/子公司数据资产管控和沉淀
大型集团公司往往有公共资产建设及统一平台的诉求,而旗下子公司有保留相对独立的管控及数据资产管理的空间的诉求。利用Dataphin提供的多租户的能力,集团和子公司分别使用不同的租户,通过数据集成的能力共享数据到集团租户,集团也可通过数据集成的能力将公共数据推送到子公司的租户中。这样的架构形式既能统一管理沉淀集团公共层数据,又能让子公司保留相对的独立,进行更加灵活的管控和研发。
特性2:湖仓一体
应用场景:通过MaxCompute + DLF 进行统一的元数据管理,更高效清晰管理企业数据资产
最近几年,湖仓一体的解决方案逐渐出现在客户的应用场景中。Dataphin也对这一场景进行了支持。通过数据仓库MaxCompute和数据湖构建(DLF)将绑定映射了DLF元数据库的MaxCompute的外部项目注册到Dataphin的项目计算引擎,Dataphin可将数据湖中的元数据读取到Dataphin中,进行统一的元数据管理。
基于MaxCompute能力的湖仓一体的方案支持以下的产品特性:
- 基础离线研发:基于MaxCompute SQL可对数据湖内的数据进行加工处理
- 统一元数据管理:可查询检索湖仓中的表、字段,并根据任务中自动血缘解析进行溯源追踪
- 资产治理:可对湖仓内的数据进行数据质量稽核校验,并可支持安全识别及脱敏
通过以上产品能力,企业在数据入湖、入仓之后,能够对海量数据进行存储和加工,帮助企业完成更清晰易用的数据资产管理,高效支撑后续的数据调取、数据处理、数据消费需求,快速应对快速变化的数字化应用挑战。
特性3:建模研发优化
应用场景:派生指标基于最大分区的计算 ,可节约存储资源,保障数据强一致性
维度逻辑表, 累积快照事实表, 周期快照事实表的每一个分区都是截止分区时间的全量数据, 最后一个分区完全覆盖前面所有分区的数据. 建模原来的设计中, 指标生产读取的是指标时间对应的逻辑表分区, 为了满足补数据的需要, 必须保留逻辑表很长一段时间的历史分区, 带来了存储的浪费. 3.5 版本支持在使用最新分区补任意过去时间的数据, 且默认使用这种设置.
特性4:数据标准
应用场景:为数据标准建设提供统一的产品化能力,让数据流通通畅无歧义
数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,通常从业务、技术、管理三方面进行定义,使组织内外部使用和交换的数据是一致且准确的。然而,数据标准需求缺乏统一管理、不同系统间标准制定依据各异、资产建设缺乏和标准的关联,使得数据标准的建设和应用都面临很大困难。
Dataphin全新上线的数据标准功能,旨在为数据标准建设提供统一的产品化能力,并通过上线审批等环节加强标准质量的审核。V3.5版本中,核心支持了以下能力;
- 标准目录管理:支持最多五级目录树管理,可以按照业务组织结构对标准进行分级管理
- 标准集管理:标准集是一系列规范相似或一致、业务含义相关的一组标准的合集。标准集不定义标准,而是基于标准集属性,定义归属这个标准集都应该统一遵循的规范和约束。数据标准属性继承归属的标准集属性。
- 数据标准管理:支持数据标准创建、审批、发布上线、修订、下线等
后续,Dataphin将进一步拓展标准和质量监控规则的关联能力以支持研发链路的落标稽核能力,以及参考数据管理等能力。
特性5:权限审计
应用场景:权限现状及变动随时掌握,实现敏感数据精细化合规管理
数据资产化已是大势所趋,各行各业在大力拓展数据储备的同时,对于敏感数据权限的管理也提出了更高的要求:敏感表授权给了哪些用户?转岗用户拥有哪些敏感权限需要回收?不合理的高危权限究竟是谁授权和审批的?如何应对合规性要求?
DataphinV3.5新增权限审计模块,能够帮助企业更加直观高效地对各类型敏感数据进行精细化管理,实现数据权限千人千面,保障数据被合适的对象消费:
支持对当前系统的权限详情(表授权给哪些用户,某个用户有哪些表权限)、权限操作(申请、授权等)进行详情审计,详细了解权限系统的现状和变动。
支持对审计详情进行下载存档,用于程序化检查或者合规检查。
特性6:内置帮助文档
应用场景:缩短产品使用适应周期,帮助新手用户快速上手开展数据建设工作
Dataphin功能众多,使用链路复杂,对于新手用户来说,通常需要参照用户指南进行操作。V3.5版本,新增内置帮助文档,可以在操作页面一键呼出,随时查阅功能说明及操作引导,同时支持自定义调整窗口位置和大小,大大增强了易用性,减少产品版本和用户指南版本不一致、查阅困难的问题。
特性7:查询加速
应用场景:即席查询提升至秒级,不卡顿无需等待,让研发体验更顺滑
Dataphin 3.5 针对MaxCompute引擎的即席查询, 默认启用了查询加速MCQA(MaxCompute Query Acceleration)功能. MCQA自动识别查询作业大小, 自动分配小作业到独立资源组, 将原来分钟级的查询优化提升到秒级. 该功能为默认设置, 无须用户介入开启。
特性8:运行诊断
应用场景:自动化分析定位问题,提升运维人员修复效率,降低人工运维成本
任务为什么还未开始运行?需要处理的最上游节点是那个?为何某个任务被限流、命中了哪些限流规则?长时间等待调度资源,是分配不合理还是可用余量不足?...对于运维人员来说,常常被这些问题困扰,人工排查难度大、准略率较低,影响了任务恢复进度,还可能阻碍下游业务数据产出。
V3.5新增的离线任务运行诊断能力,支持:
- 自动化问题排查:按照上游依赖、定时时间、限流规则、调度资源、实例运行5个流程,对实例运行结果进行自动化分析,帮助用户快速识别并定位问题
- 智能诊断建议:提示问题产生的可能原因和修复建议,降低运维人员的人工分析成本,提升问题修复效率
特性9:调度资源优化
应用场景:提升SQL任务在调度系统的吞吐量,避免因SQL任务阻塞影响业务进程
任务只有在调度资源充足的情况下才会被下发到计算引擎。对于SQL任务来说,主要消耗计算资源而非调度资源,因此调度资源通常不会成为SQL任务运行的瓶颈。
然而历史版本中,调度系统未针对SQL任务预留单独的调度资源组,从而导致SQL任务常常因为其他消耗资源多、运行时间久的任务阻塞下发,影响业务进程。V3.5版本中,Dataphin针对SQL任务预留了单独的调度资源组,提升了资源分配的合理性
特性10:审批系统接入
应用场景:通过接入企业统一的审批中心,提升审批效率及易用性
Dataphin内置了简单的审批系统,可支持在Dataphin内部进行如权限申请、业务上线等审批的申请、审核和流转。也有部分的客户希望将Dataphin的审批任务集成在已有的审批系统中,以及根据组织关系及企业内部的流程规范进行更加自由及客制化的审批规则定义,如对于低敏感等级的数据对某些项目进行开放,无需审批,而对于敏感数据的使用,则需要配置三级审批,降低安全合规的风险。
DataphinV3.5版本支持了对接外部审批系统的功能,客户可经过简单的代码及配置,即可将Dataphin的审批任务发送到外部审批系统中,完成审批后,将审批结果同步给Datpahin,进行后续的处理从而大幅提升审批工作流的效率和易用性。
四、总结与展望
本次发布的V3.5版本中,Dataphin围绕数据资产建设、数据资产治理、基础平台等三大功能板块进行了完备性、安全行、研发效率、开放性、稳定性、易用性、可交付性等方面进行了优化和升级。在下一个版本中,我们将持续提升资产建设平台的易用性及可交付性、资产治理平台的完备性以及基础平台的稳定性和开放性进行迭代,敬请期待!
关于瓴羊:
瓴羊是一家专注企业数智服务的DaaS公司,由阿里巴巴集团数据中台、业务中台、客服系统、供应链服务等多个部门融合升级而来,沉淀了阿里十年来数字化实践的经验与能力,是“阿里巴巴最佳实践”完整、系统、产品化地全面对外输出。
瓴羊拥有着深度的行业洞见,专业的数字化团队就企业数字化转型中的关键问题提供咨询服务,针对数据治理和分析、营销、销售、服务、供应链等企业核心经营领域,推出了分析云、营销云、产销云、客服云、开发云等智能产品矩阵。通过持续的陪跑服务,打造客户成功保障体系,帮助企业实现多云多平台的数字化增长。
瓴羊致力于帮助不断求“新”的企业实现全方位的数字化,至今已成功服务了LVMH、现代斗山、红星美凯龙、小鹏汽车、汉高、老板电器、麦当劳、一汽奥迪、海底捞、泡泡玛特等企业的数字化建设项目,帮助客户在数据资产、会员价值、货品效率、客户体验等方面带来突破性增长。