Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
一、Dataphin V5.0 版本升级功能点
01- 产品生态扩张,适配更多引擎与数据源
- 支持 Databricks 作为离线计算引擎
- 支持 Databricks 实时/离线集成,支持 Kafka实时集成。数据库 SQL 支持 Doris 和 SelectDB
02- 研发能力提升,加速企业数字能力建设
- 支持 MySQL 一键增全量同步,实时集成 MySQL 表效率大提升
- 支持创建和编辑 Hudi,Delta Lake 表,MaxCompute 事务表和 Delta 表,湖仓表管理更便捷
03- 资产运营与消费提效,增加资产可用性与盘点效率
- 支持批量编辑目录名称及描述
- 支持 Quick BI 仪表板的上架管理,数据消费末端纳入资产一体化管理,省心又便捷
- 支持预览数据源表数据,简单一键快捷了解表内容
二、新版本重点特性详解及应用场景示例
特性 1:全面支持 Databricks,助力中国企业出海
应用场景:
- Databricks是Lakehouse的引领者,Gartner 2024云数据库魔力象限的Leaders
- 已服务全球超11,500家企业客户,并有500余家客户年付费超百万美元,其中包含不少中国出海企业(如 安克)
功能概览:
- 支持 Databricks 作为离线计算引擎
- 实时集成,离线集成支持 Databricks
- Dataphin适配Databricks,支持多云部署,利用注册调度集群可实现一地部署,多地共用
特性 2:增全量一体实时集成,数据集成新方式
应用场景:
- 在新一代湖仓一体的数据架构上对数据集成数据新鲜度要求越来越高,很多传统离线集成并不能满足业务需求
- 实时集成主要基于日志文件解析读取,数据日志仅仅保留最近一段窗口内的数据变更记录,历史全量数据无法集成
- 常见的方案是使用离线集成完成全量数据迁移,增量数据使用实时集成从某一位点开始消费,运维成本高
功能概览:
- 实时集成来源端为MySQL时同步方案支持选择增量+全量同步
- 全量同步任务与整库增量同步任务一体化运维,支持表级全量同步任务操作,如停止、重跑、忽略等,多任务自动协调
特性 3:调度资源支持弹性伸缩,有效提升资源利用率
应用场景:现有的调度资源是按照固定配额进行分配,租户或资源组创建后将长期持有该资源。因为不同租户或资源组使用资源的周期可能不同,所以会出现某一时刻A资源不足,但是B资源闲置的现象,从而导致整个集群的资源利用率下降。
功能概览:
- 支持设置租户和资源组的可用范围:
- 可用下限:当资源紧张时(所有资源组都需要超过下限额度的资源来运行任务),所有资源组优先获得所设置的下限额度
- 可用上限:资源组可以借用其他资源组中的空闲资源,但是借用后可用总量不得超过所设置的上限值
特性 4:Quick BI 报表采集与纳管,让业务人员告别“报表迷宫”
应用场景:
在数据驱动决策的时代,BI报表是企业数据消费的核心载体。然而,传统的数据资产管理更关注表、指标等数据加工链路的资产,报表作为 BI 分析领域的工具,常游离于数据管理体系之外,导致“数据生产-分析-消费”的链路断裂,发现报表数据异常时,也无法快速追溯底层数据来源(如具体数据表、指标),排查问题效率低下。
Dataphin 新增支持采集 Quick BI 系统的报表元数据,并将报表作为一种资产进行上架管理,助力数据管家进一步厘清数据去向,构建企业统一的数据资产门户,为构建从数据引入到消费的全链路数据血缘打下基础。
功能概览:
- 报表元数据自动采集:支持采集指定 Quick BI工作空间下的报表元数据,不仅包括报表名称、描述、公开状态等基本信息,也包括包含的所有图表信息:如图表类型(柱状图、折线图等)、每个图表的维度、度量信息,构建“报表-图表-数据元素”的层级关联图谱
- 自定义报表资产属性,灵活扩展:提供报表属性自定义配置能力,可添加业务归属、使用频次、安全等级等信息,满足个性化管理需求
- 资产上架,统一管理:采集到的报表会作为一种资产类型整合到 Dataphin 的资产运营目录,与数据表、指标、API等资产进行统一管理。您可以在目录管理后台为每个报表配置归属目录、自定义标签、图表展示名等信息,并控制在资产前台的查看权限,进而实现报表资产的精细化运营
后续,Dataphin 将持续补全并优化报表资产的纳管能力,集合数据集信息串联报表和数据表、指标的血缘,以便进一步了解报表数据来源,追踪数据问题,并结合智能应用拓展数据分析场景,进一步提升报表资产的可用性和价值。
特性 5:支持创建异步调用API,实现慢 SQL 复杂计算的直连消费
应用场景:
在对大数据引擎内的数据做查询时,因为速度较慢,通常会先把数据同步到分析型引擎(OLAP)上再提供API的查询,但这种方式会因为数据复制造成计算、存储资源的浪费,同时维护集成任务的代价高。对于查询的性能要求不高的场景下,如果对外提供API时可以避免数据复制,就能够节省存储和计算资源。同时,在OLAP分析引擎下,一般会把复杂的逻辑放在API的逻辑中,而不在应用端进行查询结果的拼接,因此复杂的查询将造成更长的响应时间,可能会导致请求超时。
此外,当前的同步查询会占用服务器的连接数,导致服务器的压力,且长时间的连接占用也会导致其他服务不可用。为了解决这些问题,数据服务调用时提供异步调用模式,支持以异步方式调用接口完成数据查询。
功能概览:
- 数据服务接口支持异步调用,同时支持取消查询
- API调用时,提供能够支持异步调用的Python、Java SDK
- API详情页、版本比对支持展示接口的调用模式,同时接口发布时对调用模式是否变更进行校验
三、总结与展望
下个版本中,Dataphin 多引擎适配能力再升级,可对接 Amazon EMR 底座;数据库SQL将会支持 SQL Server 和 Hologres;运维项目合并,不再按照项目分隔,实现全局运维;支持自定义系统菜单;资产目录支持智能资产检索、支持copilot和智能运维助手,迎接大模型智能时代;标准支持基于已有表逆向创建码表;支持企业级知识库管理(词条、文档)...更多精彩功能,敬请期待!