Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力

01 关于Dataphin(智能数据建设与治理) 


Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。



02 DataphinV3.9升级功能速览

 


01- 一站式数据汇聚处理,集成能力提升


  • 多平台多引擎适配:
    支持Hologres计算引擎,可使用Hologres SQL任务,以及对Hologres 项目内的资产对象进行标准映射及落标稽核、质量监控、数据分类分级及查询脱敏等

  • 多数据源支持:
    新增支持Doris,Greenplum数据源可用于离线集成;MongoDB数据源支持多版本;Hive、Impala、TDH Inceptor数据源支持通过Hive Meta Server服务采集元数据

  • 开放集成能力升级:
    丰富主题域、业务实体的增删改查的OpenAPI,满足定制化需求的开发


02-研发体验优化,加速数字能力建设


  • 批量创建计算源:
    支持MaxCompute、Flink计算源的批量创建

  • 新增表管理功能:
    支持通过Excel上传、在线SQL编辑或从已有表引入的方式创建物理表,可批量操作

  • 数据集成优化:
    新增Greenplum输入输出组件、Kudu输入组件、Elasticsearch输入组件和API输出组件

  • 运维补数据提效:
    可快捷选择全部下游、指定一级子节点及其全部下游、指定起/终点链路上的所有节点等

  • 实时研发:支持实时计算模板;Flink SQL支持Flink原生DDL语句

  • 标签平台:计算引擎适配CDH;交互能力优化


03-数据治理能力提升,保障数据质量与安全


  • 标准:
    支持在创建数据标准时关联质量规则,并可通过勾选关联标准快速创建质量规则,实现数据标准和资产质量的打通

  • 质量:
    支持批量创建质量规则,可批量对多张表配置相同规则;优化质量分区表达式

  • 安全:内置识别规则/行业识别规则

  • 自定义权限管理:成员管理及权限配置支持用户组


03 重点特性的应用场景示例

 


特性1:支持Hologres计算引擎


  • 应用场景01:

如果您的业务部门需要进行快速的即席分析,并进行部分任务的调度,可以在MaxCompute完成公共层及基础的数据开发后,业务部门就能在Dataphin中利用Hologres开始即席分析了。

特性2:高效运维自定义补数据


  • 应用场景02:


某企业的所有业务线有公共根虚节点,每个一级子节点的下游为一条业务线,因业务变更需要重刷某几条业务线的数据,原来的补数据方式需要多次操作,支持选择指定一级子节点及其全部下游后只需要一次操作即可满足。



  • 应用场景03:


某企业因业务变更需要大批量重刷数据,但是需要优先保证某几个报表的产出,通过指定公共起点和多个终点快速回刷链路上所有节点的数据,完成后选择补全量数据,通过将导出的已选节点列表中所有节点的节点输出名称复制到排除节点中,可以快速完成其他数据的回刷。



特性3:离线集成能力


  • 应用场景04:


通过整库迁移生产一批集成任务时,需要对其进行统一的调度与运维管理,通过将整库的集成任务挂在同一个上游节点下,可统一对其进行暂停任务、补数据等操作。



  • 应用场景05:

在输入或输出组件选择表的时候,由于数据库性能原因,全量的表名元数据查询过慢;又或是该数据库存在很多相似表名的表时,在通过模糊搜索展示的表中无法快速定位找到想要的表。此时通过输入准确的表名直接查找与获取元数据就可解决上述两个场景。



  • 应用场景06:

分区表为集成任务的上游时,某些业务场景下无法确保每天都存在分区,有时候无新数据产生就没有当天分区,但业务方无法提前得知。原有逻辑下,只能等报错后手工置成功下游才会继续运行。需要增加可灵活配置的处理策略以应对此场景,保障下游任务不被阻塞。


  • 应用场景07:

连接API数据源时,有较多的复杂多变的场景,如生产与开发环境的API Key或Token不同;以及一个相同的绝对路径下,有多个相对路径不同url需要进行数据集成等等。

                       

               

                             

特性4:实时研发功能


  • 应用场景08:


活动期间,为保证重保数据链路的稳定性(如:媒体大屏),通常会配置主备多链路,通过使用代码模板生成多个相同的模板任务,保证每个链路的代码处理逻辑一致,同时又提供差异化的配置使不同的模版任务运行在不同的集群上,当主链路有异常时能自动切换到其他备份的链路计算。




  • 应用场景09:

当企业处理不同规模的客户数据时,往往需要对不同规模的客户数据进行优先级区分处理,过滤并分流到不同的任务中计算。在业务数据计算逻辑一致的情况下,通过使用代码模板生成多个相同的模板任务,每个任务配置不同的过滤条件使得获取到的消费数据不同,为任务配置不同的资源进行调优和计算,在计算逻辑变更时只需要修改模板即可同时修改所有任务,提高效率。



特性5:灵活的成员管理及权限配置


  • 应用场景10:


新成员需要获得一批权限:小组中来了一个新成员,需要获得所有的常见权限,一张张表的申请或者授权,过于繁琐;直接将新成员加入到已有小组即可。

  • 应用场景11:

权限要授权给一组成员:数据研发团队新产出了一张业务表,下游的一个小组都需要使用,但每个人都申请或者授权一次过于繁琐,这时直接将新表授权到已有用户组即可。




特性6:标准与质量互通


  • 应用场景12:


某集团IT团队制定了关于“性别”的数据标准,负责人在配置“性别”标准时,同时添加了“字段值域校验”的落标监控配置,要求“异常行数<0”。


基于配置的落标映射规则,“性别”标准映射到了“员工信息表”的“员工性别”字段、营销分析表的“客户预测性别”等字段,对应数据表的质量负责人在质量规则页面,一键引用映射到的“性别”标准已配置的值域监控规则。




这样既提升了配置效率,也保证了规范变更能够通过修订数据标准的自动覆盖到所有相关的质量监控规则,保证了数据的稳定性和可用性。





特性7:资产安全实时识别


  • 应用场景13:


从一张敏感表读取数据到一张新表,理论上这张新表也会包含敏感数据,这时候就需要实时识别的能力,及时打上敏感数据的标签,防止在下次识别任务之前,发生敏感数据的泄露问题,从而更好的保护敏感数据。




特性8:资产默认脱敏保护


  • 应用场景14:


针对绝密数据,非授权的研发都不能进行查询,那么为了保护绝密数据,可以设置绝密数据统一都返回空值,这样可以快速批量的进行敏感数据保护;对于有业务开发需求,确实需要查看数据的,可以申请白名单后进行开发。这样既可以保护好敏感数据,也不影响正常的业务开发。




特性9:标签开发优化


  • 应用场景15:


某证券公司数据开发者在通用项目A中开发基金交易指标表,为防止精度丢失对申购金额、确认金额等字段使用decimal数据类型,加入标签项目C后期望基于指标表的指标开发标签。


04 总结与展望 


本次发布的V3.9版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
3月前
Dataphin功能Tips系列(7)-维表版本策略
在创建普通维度逻辑表和事实逻辑表关联维度时,如何配置维表版本策略?
144 2
|
20天前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1378 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
4天前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
18 1
|
2月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
2月前
|
资源调度 运维 Kubernetes
Dataphin实时研发任务资源预估与资源配置
在企业用户使用Dataphin的实时研发模块时,有两个基本问题是必须考虑的: 1. 短期上线一个实时业务,需要准备多少资源?企业在未来一年中,需要提前准备多少服务器/云资源? 2. 上线实时任务时,怎么配置需要的资源? 本文对这两个问题做简单介绍,期望企业用户能够快速理解资源预估原理和资源配置方法。
|
1月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何从Dataphin使用界面查看版本
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
数据采集 数据可视化 数据管理
台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
台州银行数据治理项目携手瓴羊Dataphin,荣获中国信息通信研究院评为“2023年铸基计划高质量数字化转型典型优秀案例”、数字化研究机构沙丘社区选为“2024中国数据资产管理最佳实践案例”双重认可。
503 4
|
3月前
|
SQL 运维 数据管理
Dataphin补数据又双叒叕升级了,支持筛选节点类型,支持输入或粘贴节点名称批量补数据
Dataphin 4.0版本针对补数据操作进行了升级,旨在提升用户体验。在面对数据缺失问题时,如某企业因上游系统故障需紧急回刷历史数据,Dataphin提供了按节点类型筛选下游节点的功能,减少了手动操作的错误和时间消耗。对于大规模任务管理,如银行数据中心的历史数据补充,Dataphin支持按照节点名称批量补数据,提高了效率和准确性。此外,还优化了逻辑表补数据的性能,并允许配置超时任务自动重跑,以应对调度高峰。

热门文章

最新文章