Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
1. Dataphin V4.3 版本核心升级功能点
01- 平台
- 自动化运维:支持工具化自助化Dataphin升级;
- 审计日志:支持将审计日志配置化存储到数据源中;
- 权限:支持数据源表的表级权限和行级权限控制;
02-研发
- 离线集成:整库迁移能力升级,管理灵活性提升;
- 离线研发:优化表发布逻辑,支持发布项合并发布;
- 实时集成:满足多种场景,新增支持Flink on K8s部署模式;
03-资产治理
- 安全:面向能源、车联网分级分类模板,降低客户安全建设启动成本;
- 质量:质量专题新增全域表
04-资产运营与消费
- 资产目录:支持资产自动上架;采集数据源拓展;
- 资产消费:支持数据源表的消费及消费渠道的页面化配置;
05-DataAgent 智能小D
- 智能小 D:支持用户按需选择智能体进行问答;按照对话粒度记录历史;
- 问答管理:定义工作空间用于对接不同大模型服务平台;一键添加元数据资产作为问答资产;一站式定义和接入智能体;
- 大模型服务平台:具备对接公共云百炼 或 独立部署 Dify 能力;
2. 新版本重点特性详解及应用场景示例
2.1 特性 1:整库迁移支持自定义任务名前后缀
应用场景:
- 离线整库迁移任务名由系统自动生成,不支持自定义
- 客户对任务具有统一的管理规范,现有能力无法满足客户管理上的需求
- 客户内部同数据源类型下不同数据库存在重名表,按照现有生成方式,无法区分具体是哪个库的需求
功能概览:
- 支持“系统默认”、“自定义规则”两种任务名称配置方式
- 支持使用“来源表名”、“目标表名”、“来源库Schema名”、“来源数据库名”、常量进行自由组合和排序进行任务名生成
- 支持即时预览生成的任务名称
2.2 特性 2:整库迁移目录支持新增离线管道任务
应用场景:
- 用户在整库迁移的时候,有的表会创建失败,针对这些失败的表,用户需要手动建任务,然后移动到整库迁移的目录中。
- 客户原本生成整库迁移的管道,现在又多了几张表,想将新的管道任务移动到之前的整库迁移目录下,但是选不到。
功能概览:
- 支持整库迁移目录下新建离线管道任务
- 支持移动管道任务到整库迁移的目录文件夹
2.3 特性 3:实时集成支持Flink on K8s部署模式,满足多种部署场景
应用场景:
- 提供云原生化的Flink on k8s能力,摆脱dataphin实时集成需绑定Hadoop或Flink vvp搭配售卖的现状,使实时集成覆盖全场景的输出售卖;
- 节约成本,客户无需购买Hadoop或Flink vvp(10CU 一年10w),无需关心第三方实时计算引擎的运维;
- 实时集成和离线可复用和共享Dataphin调度资源组的能力,精细化分配集群资源利用率。
功能概览:
- 支持Flink on K8s部署模式;
- 复用实时计算资源组能力,与实时研发保持一致
2.4 特性 4:自定义 SQL 质量规则支持批量导入导出
应用场景:
- 质量管理部梳理了一批监控规则的 SQL,需要批量创建对应的质量规则
- 质量管理部更新了监控规则的口径定义,需要批量更新之前创建好的质量规则
- 新人入职,批量导入质量规则的模板该怎么写,有没有现成的内容可以作为参考?
功能概览:
Dataphin 在这个版本中升级了质量自定义 SQL 规则的批量导入导出功能,可以灵活满足上述需求:
- 支持批量导出自定义 SQL 类型的质量规则,可灵活选择导出范围
- 支持配置批量导入策略:针对已创建的规则,可选择覆盖已有配置,实现规则批量更新
- 可查看批量导出记录,并下载最近 7 日内的导出文件
这样一来,可以先将需要更新的规则批量导出,再按照最新口径定义修改 SQL 再重新导入并选择覆盖,就可以实现快速批量更新啦;新增入职也可以先导出相关规则作为示例模板再仿照新增规则,快速上手,大大提升配置正确率和工作效率!
2.5 特性 5:自动上架,助力高效资产管理和运营
应用场景:
小 A 是公司的运营管理员,苦恼于大量资产的上架管理工作:不同部门的表要遵循不同的权限控制并上架到指定的目录、相关业务的表要增加统一的资产标签标签便于搜索和筛选、公共层规范建设的核心数据需要在开发完成的一日内尽快完成上架...几万个存量待上架资产和源源不断新增的资产,难道得像之前一样一个个手动上架吗?这什么时候能搞完!
Dataphin 在 4.3 版本中全新发布资产自动上架的功能,正是为了解决这类棘手的问题而设计。这个功能的核心优势有三点:
- 自动化:转变传统手动上架模式,预先设定上架规则,系统将按计划自动执行
- 低成本:通过“规则组”有效区分和管理不同来源的资产,通过排序决定规则的执行顺序,减少执行冲突,提升管理效率。
- 灵活管理:可配置“是否覆盖手动操作”,实现自动变更和手动操作的有效结合。
- 创建规则组
规则组用于管理作用于相同资产范围的一组规则,不同规则组作用于不同范围的资产且互不冲突,从而避免了一个资产命中多条互斥的规则导致的冲突问题、也降低了规则管理的难度,划分非常清晰。您也通过配置定时执行时间灵活控制不同资产的变更时间。
- 在规则组下配置规则
每个规则组可包含多条规则,每条规则都可以通过筛选配置更细粒度的生效对象,不同类型的规则需要配置的信息有所差异,从而进行精细化管理。“信息完善”规则可用于批量完善资产的属性信息,“自动上架”规则,顾名思义,就是自动对资产执行“上架”操作,可以减少人工介入。
- 规则排序
每个规则组可能包含多条规则,同一组内的规则按"排序"执行以保证操作顺序从而达到预期的效果。如:先执行“信息完善”规则、再执行“自动上架”规则,就不会因为确实必填属性而上架校验失败啦。
这样,通过简单的设置和调整,小 A 轻松完成了大量资产批量上架的问题,解放了时间,可以好好思考资产平台下一步的运营计划了,工作效率大大提升!
2.6 特性 6:支持将审计日志配置化存储到不同的数据源中
应用场景:
- 企业往往需要根据平台的日志对用户行为进行审计,包括追溯某一行为的操作者、审计过往的平台操作中是否有高危行为
- 在“等保三级”的认证中,审计日志的存储时长也是必要的考察项目之一
功能概览:
Dataphin 在这个版本中支持对审计日志进行配置化存储到不同的数据源中,可以灵活满足上述需求:
- 支持选择存储审计日志的数据源,支持MySQL、Oracle、PostgreSQL、Microsoft SQL Server四种数据源
- 支持设置日志同步频率,包括:每天0点同步、每天整点同步、每天整点和半天同步
- 支持对同步任务进行运维,包括手动补数据、配置告警等
2.7 特性 7:支持对数据源中的表进行权限管控
应用场景:
- 在数据消费场景中,用户往往仅需要查询数据源下某张表的数据:Dataphin中目前仅支持对计算源中的表进行权限管控,数据源的权限仅支持申请或授权整库级别的执行权限,无法满足仅查询单张表数据的场景。
功能概览:
Dataphin 在这个版本中支持对数据源表进行权限管控,可以灵活满足上述需求:
- 支持对MySQL和Oracle类型的数据源进行表级权限管控,权限类型支持“查表数据”
- 拥有数据源表“查表数据”权限的用户可以在【研发】和【分析】模块中对表数据进行Select操作
2.8 特性 8:内置分类模板库新增能源、汽车行业模板
应用场景:
奔牛汽车公司数据部的安全管理员小王苦恼于刚接到的任务:参考行业分类分级最佳实践,制定奔牛汽车公司的分类分级体系:
- 行业最佳实践是什么?
- 如何快速又低成本的创建?
功能概览:
Dataphin 本期新增 3 个内置的行业分类分级模板,可快速一键引用:
- 能源电力行业模板:参考能源电力行业最佳实践)
- 车联网分类分级模板:参考《YDT 3751-2020 车联网信息服务数据安全技术要求》
- 智能网联汽车分类分级模板:参考《2022中国信通院智能网联汽车数据分类分级实践指南》,分类制定依据参考:《车联网信息服务用户个人信息保护要求》、《北京市高级别自动驾驶测试示范区数据分类分级白皮书》)
浏览下来,小王发现“车联网分类分级模板”和公司的业务情况最符合,不少友商公司也是基于这个模板创建的自有分类分级管理体系。于是,小王一键引用添加全量目录和分类,再稍加修改,轻轻松松就完成了工作。后续如果内置模板库有迭代,也可以通过引用并覆盖的方式批量更新,可真是太好用了!
3. 总结与展望
本次发布的V4.3 版本中,Dataphin 支持资产的自动上架,支持了数据源表的权限控制,数据集成支持了Flink on K8s部署模式,数据质量也扩展了对全域表的支持。在下一个版本中,Dataphin将支持跨项目发布,扩展采集数据源以及数据库SQL支持范围,数据集成支持性能诊断测试,标签将支持批量操作等。还有更多功能,敬请期待。
4. 往期版本升级回顾
- Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
- DataphinV4.1大升级: 支持Lindorm,上线“公共云半托管”自助新模式
- DataphinV4.0:自定义全局角色 ,实时研发覆盖全部署场景
- DataphinV3.14:数据研发突破全域覆盖,资产治理更加灵活可控
了解更多请前往官网: Dataphin智能建设与治理 >>
获取深度资料:Dataphin产品白皮书 >>