Dataphin V4.3重大升级：AI“弄潮儿”，数据资产智能化！

2024-10-21 18

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能数据建设与治理Dataphin，200数据处理单元

简介： DataAgent如何助理业务和研发成为业务参谋？如何快速低成本的创建行业数据分类标准？如何管控数据源表的访问权限？如何满足企业安全审计需求？

Dataphin是瓴羊旗下的智能数据建设与治理平台，是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出，致力于通过一站式智能化的数据建设及治理能力，帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。

1. Dataphin V4.3 版本核心升级功能点

01- 平台

自动化运维：支持工具化自助化Dataphin升级；
审计日志：支持将审计日志配置化存储到数据源中；
权限：支持数据源表的表级权限和行级权限控制；

02-研发

离线集成：整库迁移能力升级，管理灵活性提升；
离线研发：优化表发布逻辑，支持发布项合并发布；
实时集成：满足多种场景，新增支持Flink on K8s部署模式；

03-资产治理

安全：面向能源、车联网分级分类模板，降低客户安全建设启动成本；
质量：质量专题新增全域表

04-资产运营与消费

资产目录：支持资产自动上架；采集数据源拓展；
资产消费：支持数据源表的消费及消费渠道的页面化配置；

05-DataAgent 智能小D

智能小 D：支持用户按需选择智能体进行问答；按照对话粒度记录历史；
问答管理：定义工作空间用于对接不同大模型服务平台；一键添加元数据资产作为问答资产；一站式定义和接入智能体；
大模型服务平台：具备对接公共云百炼或独立部署 Dify 能力；

2. 新版本重点特性详解及应用场景示例

2.1 特性 1：整库迁移支持自定义任务名前后缀

应用场景：

离线整库迁移任务名由系统自动生成，不支持自定义
客户对任务具有统一的管理规范，现有能力无法满足客户管理上的需求
客户内部同数据源类型下不同数据库存在重名表，按照现有生成方式，无法区分具体是哪个库的需求

功能概览：

支持“系统默认”、“自定义规则”两种任务名称配置方式
支持使用“来源表名”、“目标表名”、“来源库Schema名”、“来源数据库名”、常量进行自由组合和排序进行任务名生成
支持即时预览生成的任务名称

2.2 特性 2：整库迁移目录支持新增离线管道任务

应用场景：

用户在整库迁移的时候，有的表会创建失败，针对这些失败的表，用户需要手动建任务，然后移动到整库迁移的目录中。
客户原本生成整库迁移的管道，现在又多了几张表，想将新的管道任务移动到之前的整库迁移目录下，但是选不到。

功能概览：

2.3 特性 3：实时集成支持Flink on K8s部署模式，满足多种部署场景

应用场景：

提供云原生化的Flink on k8s能力，摆脱dataphin实时集成需绑定Hadoop或Flink vvp搭配售卖的现状，使实时集成覆盖全场景的输出售卖；
节约成本，客户无需购买Hadoop或Flink vvp（10CU 一年10w），无需关心第三方实时计算引擎的运维；
实时集成和离线可复用和共享Dataphin调度资源组的能力，精细化分配集群资源利用率。

功能概览：

支持Flink on K8s部署模式；
复用实时计算资源组能力，与实时研发保持一致

2.4 特性 4：自定义 SQL 质量规则支持批量导入导出

应用场景：

质量管理部梳理了一批监控规则的 SQL，需要批量创建对应的质量规则
质量管理部更新了监控规则的口径定义，需要批量更新之前创建好的质量规则
新人入职，批量导入质量规则的模板该怎么写，有没有现成的内容可以作为参考？

功能概览：

Dataphin 在这个版本中升级了质量自定义 SQL 规则的批量导入导出功能，可以灵活满足上述需求：

支持批量导出自定义 SQL 类型的质量规则，可灵活选择导出范围
支持配置批量导入策略：针对已创建的规则，可选择覆盖已有配置，实现规则批量更新
可查看批量导出记录，并下载最近 7 日内的导出文件

这样一来，可以先将需要更新的规则批量导出，再按照最新口径定义修改 SQL 再重新导入并选择覆盖，就可以实现快速批量更新啦；新增入职也可以先导出相关规则作为示例模板再仿照新增规则，快速上手，大大提升配置正确率和工作效率！

2.5 特性 5：自动上架，助力高效资产管理和运营

应用场景：

小 A 是公司的运营管理员，苦恼于大量资产的上架管理工作：不同部门的表要遵循不同的权限控制并上架到指定的目录、相关业务的表要增加统一的资产标签标签便于搜索和筛选、公共层规范建设的核心数据需要在开发完成的一日内尽快完成上架...几万个存量待上架资产和源源不断新增的资产，难道得像之前一样一个个手动上架吗？这什么时候能搞完！

Dataphin 在 4.3 版本中全新发布资产自动上架的功能，正是为了解决这类棘手的问题而设计。这个功能的核心优势有三点：

自动化：转变传统手动上架模式，预先设定上架规则，系统将按计划自动执行
低成本：通过“规则组”有效区分和管理不同来源的资产，通过排序决定规则的执行顺序，减少执行冲突，提升管理效率。
灵活管理：可配置“是否覆盖手动操作”，实现自动变更和手动操作的有效结合。

创建规则组

规则组用于管理作用于相同资产范围的一组规则，不同规则组作用于不同范围的资产且互不冲突，从而避免了一个资产命中多条互斥的规则导致的冲突问题、也降低了规则管理的难度，划分非常清晰。您也通过配置定时执行时间灵活控制不同资产的变更时间。

在规则组下配置规则

每个规则组可包含多条规则，每条规则都可以通过筛选配置更细粒度的生效对象，不同类型的规则需要配置的信息有所差异，从而进行精细化管理。“信息完善”规则可用于批量完善资产的属性信息，“自动上架”规则，顾名思义，就是自动对资产执行“上架”操作，可以减少人工介入。

规则排序

每个规则组可能包含多条规则，同一组内的规则按"排序"执行以保证操作顺序从而达到预期的效果。如：先执行“信息完善”规则、再执行“自动上架”规则，就不会因为确实必填属性而上架校验失败啦。

这样，通过简单的设置和调整，小 A 轻松完成了大量资产批量上架的问题，解放了时间，可以好好思考资产平台下一步的运营计划了，工作效率大大提升！

2.6 特性 6：支持将审计日志配置化存储到不同的数据源中

应用场景：

企业往往需要根据平台的日志对用户行为进行审计，包括追溯某一行为的操作者、审计过往的平台操作中是否有高危行为
在“等保三级”的认证中，审计日志的存储时长也是必要的考察项目之一

功能概览：

Dataphin 在这个版本中支持对审计日志进行配置化存储到不同的数据源中，可以灵活满足上述需求：

支持选择存储审计日志的数据源，支持MySQL、Oracle、PostgreSQL、Microsoft SQL Server四种数据源
支持设置日志同步频率，包括：每天0点同步、每天整点同步、每天整点和半天同步
支持对同步任务进行运维，包括手动补数据、配置告警等

2.7 特性 7：支持对数据源中的表进行权限管控

应用场景：

在数据消费场景中，用户往往仅需要查询数据源下某张表的数据：Dataphin中目前仅支持对计算源中的表进行权限管控，数据源的权限仅支持申请或授权整库级别的执行权限，无法满足仅查询单张表数据的场景。

功能概览：

Dataphin 在这个版本中支持对数据源表进行权限管控，可以灵活满足上述需求：

支持对MySQL和Oracle类型的数据源进行表级权限管控，权限类型支持“查表数据”
拥有数据源表“查表数据”权限的用户可以在【研发】和【分析】模块中对表数据进行Select操作

2.8 特性 8：内置分类模板库新增能源、汽车行业模板

应用场景：

奔牛汽车公司数据部的安全管理员小王苦恼于刚接到的任务：参考行业分类分级最佳实践，制定奔牛汽车公司的分类分级体系：

行业最佳实践是什么？
如何快速又低成本的创建？

功能概览：

Dataphin 本期新增 3 个内置的行业分类分级模板，可快速一键引用：

能源电力行业模板：参考能源电力行业最佳实践）
车联网分类分级模板：参考《YDT 3751-2020 车联网信息服务数据安全技术要求》
智能网联汽车分类分级模板：参考《2022中国信通院智能网联汽车数据分类分级实践指南》，分类制定依据参考：《车联网信息服务用户个人信息保护要求》、《北京市高级别自动驾驶测试示范区数据分类分级白皮书》）

浏览下来，小王发现“车联网分类分级模板”和公司的业务情况最符合，不少友商公司也是基于这个模板创建的自有分类分级管理体系。于是，小王一键引用添加全量目录和分类，再稍加修改，轻轻松松就完成了工作。后续如果内置模板库有迭代，也可以通过引用并覆盖的方式批量更新，可真是太好用了！

3. 总结与展望

本次发布的V4.3 版本中，Dataphin 支持资产的自动上架，支持了数据源表的权限控制，数据集成支持了Flink on K8s部署模式，数据质量也扩展了对全域表的支持。在下一个版本中，Dataphin将支持跨项目发布，扩展采集数据源以及数据库SQL支持范围，数据集成支持性能诊断测试，标签将支持批量操作等。还有更多功能，敬请期待。

4. 往期版本升级回顾

联系我们，欢迎扫码请扫码加入钉钉群：

Dataphin V4.3重大升级：AI“弄潮儿”，数据资产智能化！

1. Dataphin V4.3 版本核心升级功能点

2. 新版本重点特性详解及应用场景示例

2.1 特性 1：整库迁移支持自定义任务名前后缀

2.2 特性 2：整库迁移目录支持新增离线管道任务

2.3 特性 3：实时集成支持Flink on K8s部署模式，满足多种部署场景

2.4 特性 4：自定义 SQL 质量规则支持批量导入导出

2.5 特性 5：自动上架，助力高效资产管理和运营

2.6 特性 6：支持将审计日志配置化存储到不同的数据源中

2.7 特性 7：支持对数据源中的表进行权限管控

2.8 特性 8：内置分类模板库新增能源、汽车行业模板

3. 总结与展望

4. 往期版本升级回顾

Dataphin智能数据建设与治理

热门文章

最新文章

相关课程

相关电子书

相关实验场景