【产品升级】Dataphin V5.0版本发布:助力出海业务、增全量一体集成、异步调用API等更多功能等你发现

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V5.0版本研发新增支持Databricks作为离线计算引擎、支持MySQL数据库一键增全量同步、支持管理Hudi、Delta Lake表等;资产运营与消费持续提效,支持批量编辑目录名称及描述、Quick BI仪表板的上架管理等功能,增加资产可用性与盘点效率。

image.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。


一、Dataphin V5.0 版本升级功能点

01- 产品生态扩张,适配更多引擎与数据源

  • 支持 Databricks 作为离线计算引擎
  • 支持 Databricks 实时/离线集成,支持 Kafka实时集成。数据库 SQL 支持 Doris 和 SelectDB

02- 研发能力提升,加速企业数字能力建设

  • 支持 MySQL 一键增全量同步,实时集成 MySQL 表效率大提升
  • 支持创建和编辑 Hudi,Delta Lake 表,MaxCompute 事务表和 Delta 表,湖仓表管理更便捷

03- 资产运营与消费提效,增加资产可用性与盘点效率

  • 支持批量编辑目录名称及描述
  • 支持 Quick BI 仪表板的上架管理,数据消费末端纳入资产一体化管理,省心又便捷
  • 支持预览数据源表数据,简单一键快捷了解表内容


二、新版本重点特性详解及应用场景示例

特性 1:全面支持 Databricks,助力中国企业出海

应用场景:

  1. Databricks是Lakehouse的引领者,Gartner 2024云数据库魔力象限的Leaders
  2. 已服务全球超11,500家企业客户,并有500余家客户年付费超百万美元,其中包含不少中国出海企业(如 安克)

功能概览:

  1. 支持 Databricks 作为离线计算引擎
  2. 实时集成,离线集成支持 Databricks
  3. Dataphin适配Databricks,支持多云部署,利用注册调度集群可实现一地部署,多地共用

特性 2:增全量一体实时集成,数据集成新方式

应用场景

  1. 在新一代湖仓一体的数据架构上对数据集成数据新鲜度要求越来越高,很多传统离线集成并不能满足业务需求
  2. 实时集成主要基于日志文件解析读取,数据日志仅仅保留最近一段窗口内的数据变更记录,历史全量数据无法集成
  3. 常见的方案是使用离线集成完成全量数据迁移,增量数据使用实时集成从某一位点开始消费,运维成本高

功能概览:

  1. 实时集成来源端为MySQL时同步方案支持选择增量+全量同步
  2. 全量同步任务与整库增量同步任务一体化运维,支持表级全量同步任务操作,如停止、重跑、忽略等,多任务自动协调

       

       

特性 3:调度资源支持弹性伸缩,有效提升资源利用率

应用场景:现有的调度资源是按照固定配额进行分配,租户或资源组创建后将长期持有该资源。因为不同租户或资源组使用资源的周期可能不同,所以会出现某一时刻A资源不足,但是B资源闲置的现象,从而导致整个集群的资源利用率下降。

功能概览:

  1. 支持设置租户和资源组的可用范围:
  1. 可用下限:当资源紧张时(所有资源组都需要超过下限额度的资源来运行任务),所有资源组优先获得所设置的下限额度
  2. 可用上限:资源组可以借用其他资源组中的空闲资源,但是借用后可用总量不得超过所设置的上限值

       

       

特性 4:Quick BI 报表采集与纳管,让业务人员告别“报表迷宫”

应用场景:

在数据驱动决策的时代,BI报表是企业数据消费的核心载体。然而,传统的数据资产管理更关注表、指标等数据加工链路的资产,报表作为 BI 分析领域的工具,常游离于数据管理体系之外,导致“数据生产-分析-消费”的链路断裂,发现报表数据异常时,也无法快速追溯底层数据来源(如具体数据表、指标),排查问题效率低下。

Dataphin 新增支持采集 Quick BI 系统的报表元数据,并将报表作为一种资产进行上架管理,助力数据管家进一步厘清数据去向,构建企业统一的数据资产门户,为构建从数据引入到消费的全链路数据血缘打下基础。

功能概览:

  1. 报表元数据自动采集:支持采集指定 Quick BI工作空间下的报表元数据,不仅包括报表名称、描述、公开状态等基本信息,也包括包含的所有图表信息:如图表类型(柱状图、折线图等)、每个图表的维度、度量信息,构建“报表-图表-数据元素”的层级关联图谱
  2. 自定义报表资产属性,灵活扩展:提供报表属性自定义配置能力,可添加业务归属、使用频次、安全等级等信息,满足个性化管理需求
  3. 资产上架,统一管理:采集到的报表会作为一种资产类型整合到 Dataphin 的资产运营目录,与数据表、指标、API等资产进行统一管理。您可以在目录管理后台为每个报表配置归属目录、自定义标签、图表展示名等信息,并控制在资产前台的查看权限,进而实现报表资产的精细化运营

后续,Dataphin 将持续补全并优化报表资产的纳管能力,集合数据集信息串联报表和数据表、指标的血缘,以便进一步了解报表数据来源,追踪数据问题,并结合智能应用拓展数据分析场景,进一步提升报表资产的可用性和价值。

特性 5:支持创建异步调用API,实现慢 SQL 复杂计算的直连消费

应用场景

在对大数据引擎内的数据做查询时,因为速度较慢,通常会先把数据同步到分析型引擎(OLAP)上再提供API的查询,但这种方式会因为数据复制造成计算、存储资源的浪费,同时维护集成任务的代价高。对于查询的性能要求不高的场景下,如果对外提供API时可以避免数据复制,就能够节省存储和计算资源。同时,在OLAP分析引擎下,一般会把复杂的逻辑放在API的逻辑中,而不在应用端进行查询结果的拼接,因此复杂的查询将造成更长的响应时间,可能会导致请求超时。

此外,当前的同步查询会占用服务器的连接数,导致服务器的压力,且长时间的连接占用也会导致其他服务不可用。为了解决这些问题,数据服务调用时提供异步调用模式,支持以异步方式调用接口完成数据查询。

功能概览:

  1. 数据服务接口支持异步调用,同时支持取消查询

     

  1. API调用时,提供能够支持异步调用的Python、Java SDK        
  2. API详情页、版本比对支持展示接口的调用模式,同时接口发布时对调用模式是否变更进行校验

       

       

三、总结与展望

下个版本中,Dataphin 多引擎适配能力再升级,可对接 Amazon EMR 底座;数据库SQL将会支持 SQL Server 和 Hologres;运维项目合并,不再按照项目分隔,实现全局运维;支持自定义系统菜单;资产目录支持智能资产检索、支持copilot和智能运维助手,迎接大模型智能时代;标准支持基于已有表逆向创建码表;支持企业级知识库管理(词条、文档)...更多精彩功能,敬请期待!

相关文章
|
1月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
202 7
|
2月前
|
XML 测试技术 API
利用C#开发ONVIF客户端和集成RTSP播放功能
利用C#开发ONVIF客户端和集成RTSP播放功能
1369 123
|
1月前
|
机器人 数据中心
Dataphin功能Tips系列(79)精准获知标准更新动态,协同治理更高效
Dataphin支持数据标准变更订阅,可实时通过站内信、邮箱或钉群机器人通知相关人员,确保业务及时响应。用户可通过标准列表、个人中心等入口批量订阅,变更消息包含状态、版本及跳转链接,便于快速查看与处理。
115 8
|
1月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
|
1月前
|
数据采集 运维 调度
Dataphin功能Tips系列(75)质量规则调度配置系列(2)-固定任务触发调度
Dataphin“固定任务触发调度”支持在任务成功或运行前触发质量规则校验。适用于表数据来源任务固定的场景,通过绑定强规则可阻断下游任务,防止脏数据扩散,提升数据质量管控能力。
102 9
|
1月前
|
数据管理
Dataphin功能Tips系列(78)自定义属性助力资产精细化管理
Dataphin V5.3升级自定义属性功能,支持多选、超链接及引用系统属性,实现资产“归口部门”与组织架构同步、指标看板一键跳转等场景,提升资产配置灵活性与管理效率。
108 8
|
1月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
Dataphin通过“数据更新触发调度”功能,结合强规则校验,可在订单表数据更新时自动触发质量检查,异常时阻断下游任务,有效防止脏数据扩散,保障关键业务链路的数据准确性与稳定性。
132 8
|
1月前
|
安全 数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限通过“控制字段”实现精细化数据管控,有效避免传统字段权限过度开放带来的安全风险,提升权限管理效率与灵活性,满足复杂场景下的数据安全需求。
151 4
|
1月前
Dataphin功能Tips系列(77)如何实现数据资产上下架的精准管控与高效流转
在企业数据治理中,Dataphin支持按资产范围灵活配置上下架审批流程。通过标签、项目等条件圈选资产,绑定自定义审批模板,实现核心资产精细管控与大规模资产高效流转的平衡,提升数据运营效率。
100 1