Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?

image.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。


1. Dataphin V4.3 版本核心升级功能点

01- 平台

  • 自动化运维:支持工具化自助化Dataphin升级;
  • 审计日志:支持将审计日志配置化存储到数据源中;
  • 权限:支持数据源表的表级权限和行级权限控制;

02-研发

  • 离线集成:整库迁移能力升级,管理灵活性提升;
  • 离线研发:优化表发布逻辑,支持发布项合并发布;
  • 实时集成:满足多种场景,新增支持Flink on K8s部署模式;

03-资产治理

  • 安全:面向能源、车联网分级分类模板,降低客户安全建设启动成本;
  • 质量:质量专题新增全域表

04-资产运营与消费

  • 资产目录:支持资产自动上架;采集数据源拓展;
  • 资产消费:支持数据源表的消费及消费渠道的页面化配置;

05-DataAgent 智能小D

  • 智能小 D:支持用户按需选择智能体进行问答;按照对话粒度记录历史;
  • 问答管理:定义工作空间用于对接不同大模型服务平台;一键添加元数据资产作为问答资产;一站式定义和接入智能体;
  • 大模型服务平台:具备对接公共云百炼 或 独立部署 Dify 能力;


2. 新版本重点特性详解及应用场景示例

2.1 特性 1:整库迁移支持自定义任务名前后缀

应用场景

  • 离线整库迁移任务名由系统自动生成,不支持自定义
  • 客户对任务具有统一的管理规范,现有能力无法满足客户管理上的需求
  • 客户内部同数据源类型下不同数据库存在重名表,按照现有生成方式,无法区分具体是哪个库的需求

功能概览:

  • 支持“系统默认”、“自定义规则”两种任务名称配置方式
  • 支持使用“来源表名”、“目标表名”、“来源库Schema名”、“来源数据库名”、常量进行自由组合和排序进行任务名生成
  • 支持即时预览生成的任务名称

2.2 特性 2:整库迁移目录支持新增离线管道任务

应用场景

  • 用户在整库迁移的时候,有的表会创建失败,针对这些失败的表,用户需要手动建任务,然后移动到整库迁移的目录中。
  • 客户原本生成整库迁移的管道,现在又多了几张表,想将新的管道任务移动到之前的整库迁移目录下,但是选不到。

功能概览:

  • 支持整库迁移目录下新建离线管道任务
  • 支持移动管道任务到整库迁移的目录文件夹

   

2.3 特性 3:实时集成支持Flink on K8s部署模式,满足多种部署场景

应用场景

  • 提供云原生化的Flink on k8s能力,摆脱dataphin实时集成需绑定Hadoop或Flink vvp搭配售卖的现状,使实时集成覆盖全场景的输出售卖;
  • 节约成本,客户无需购买Hadoop或Flink vvp(10CU 一年10w),无需关心第三方实时计算引擎的运维;
  • 实时集成和离线可复用和共享Dataphin调度资源组的能力,精细化分配集群资源利用率。

功能概览:

  • 支持Flink on K8s部署模式;
  • 复用实时计算资源组能力,与实时研发保持一致

2.4 特性 4:自定义 SQL 质量规则支持批量导入导出

应用场景

  • 质量管理部梳理了一批监控规则的 SQL,需要批量创建对应的质量规则
  • 质量管理部更新了监控规则的口径定义,需要批量更新之前创建好的质量规则
  • 新人入职,批量导入质量规则的模板该怎么写,有没有现成的内容可以作为参考?

功能概览:

Dataphin 在这个版本中升级了质量自定义 SQL 规则的批量导入导出功能,可以灵活满足上述需求:

  • 支持批量导出自定义 SQL 类型的质量规则,可灵活选择导出范围
  • 支持配置批量导入策略:针对已创建的规则,可选择覆盖已有配置,实现规则批量更新
  • 可查看批量导出记录,并下载最近 7 日内的导出文件

这样一来,可以先将需要更新的规则批量导出,再按照最新口径定义修改 SQL 再重新导入并选择覆盖,就可以实现快速批量更新啦;新增入职也可以先导出相关规则作为示例模板再仿照新增规则,快速上手,大大提升配置正确率和工作效率!

2.5 特性 5:自动上架,助力高效资产管理和运营

应用场景

小 A 是公司的运营管理员,苦恼于大量资产的上架管理工作:不同部门的表要遵循不同的权限控制并上架到指定的目录、相关业务的表要增加统一的资产标签标签便于搜索和筛选、公共层规范建设的核心数据需要在开发完成的一日内尽快完成上架...几万个存量待上架资产和源源不断新增的资产,难道得像之前一样一个个手动上架吗?这什么时候能搞完!


Dataphin 在 4.3 版本中全新发布资产自动上架的功能,正是为了解决这类棘手的问题而设计。这个功能的核心优势有三点:

  • 自动化:转变传统手动上架模式,预先设定上架规则,系统将按计划自动执行
  • 低成本:通过“规则组”有效区分和管理不同来源的资产,通过排序决定规则的执行顺序,减少执行冲突,提升管理效率。
  • 灵活管理:可配置“是否覆盖手动操作”,实现自动变更和手动操作的有效结合。
  1. 创建规则组

规则组用于管理作用于相同资产范围的一组规则,不同规则组作用于不同范围的资产且互不冲突,从而避免了一个资产命中多条互斥的规则导致的冲突问题、也降低了规则管理的难度,划分非常清晰。您也通过配置定时执行时间灵活控制不同资产的变更时间。

  1. 在规则组下配置规则

每个规则组可包含多条规则,每条规则都可以通过筛选配置更细粒度的生效对象,不同类型的规则需要配置的信息有所差异,从而进行精细化管理。“信息完善”规则可用于批量完善资产的属性信息,“自动上架”规则,顾名思义,就是自动对资产执行“上架”操作,可以减少人工介入。

  1. 规则排序

每个规则组可能包含多条规则,同一组内的规则按"排序"执行以保证操作顺序从而达到预期的效果。如:先执行“信息完善”规则、再执行“自动上架”规则,就不会因为确实必填属性而上架校验失败啦。

这样,通过简单的设置和调整,小 A 轻松完成了大量资产批量上架的问题,解放了时间,可以好好思考资产平台下一步的运营计划了,工作效率大大提升!

2.6 特性 6:支持将审计日志配置化存储到不同的数据源中

应用场景

  • 企业往往需要根据平台的日志对用户行为进行审计,包括追溯某一行为的操作者、审计过往的平台操作中是否有高危行为
  • 在“等保三级”的认证中,审计日志的存储时长也是必要的考察项目之一

功能概览:

Dataphin 在这个版本中支持对审计日志进行配置化存储到不同的数据源中,可以灵活满足上述需求:

  • 支持选择存储审计日志的数据源,支持MySQL、Oracle、PostgreSQL、Microsoft SQL Server四种数据源
  • 支持设置日志同步频率,包括:每天0点同步、每天整点同步、每天整点和半天同步
  • 支持对同步任务进行运维,包括手动补数据、配置告警等

2.7 特性 7:支持对数据源中的表进行权限管控

应用场景

  • 在数据消费场景中,用户往往仅需要查询数据源下某张表的数据:Dataphin中目前仅支持对计算源中的表进行权限管控,数据源的权限仅支持申请或授权整库级别的执行权限,无法满足仅查询单张表数据的场景。

功能概览:

Dataphin 在这个版本中支持对数据源表进行权限管控,可以灵活满足上述需求:

  • 支持对MySQL和Oracle类型的数据源进行表级权限管控,权限类型支持“查表数据”
  • 拥有数据源表“查表数据”权限的用户可以在【研发】和【分析】模块中对表数据进行Select操作

2.8 特性 8:内置分类模板库新增能源、汽车行业模板

应用场景

奔牛汽车公司数据部的安全管理员小王苦恼于刚接到的任务:参考行业分类分级最佳实践,制定奔牛汽车公司的分类分级体系:

  • 行业最佳实践是什么?
  • 如何快速又低成本的创建?

功能概览:

Dataphin 本期新增 3 个内置的行业分类分级模板,可快速一键引用:

  • 能源电力行业模板:参考能源电力行业最佳实践)
  • 车联网分类分级模板:参考《YDT 3751-2020 车联网信息服务数据安全技术要求》
  • 智能网联汽车分类分级模板:参考《2022中国信通院智能网联汽车数据分类分级实践指南》,分类制定依据参考:《车联网信息服务用户个人信息保护要求》、《北京市高级别自动驾驶测试示范区数据分类分级白皮书》)

浏览下来,小王发现“车联网分类分级模板”和公司的业务情况最符合,不少友商公司也是基于这个模板创建的自有分类分级管理体系。于是,小王一键引用添加全量目录和分类,再稍加修改,轻轻松松就完成了工作。后续如果内置模板库有迭代,也可以通过引用并覆盖的方式批量更新,可真是太好用了!


3. 总结与展望

本次发布的V4.3 版本中,Dataphin 支持资产的自动上架,支持了数据源表的权限控制,数据集成支持了Flink on K8s部署模式,数据质量也扩展了对全域表的支持。在下一个版本中,Dataphin将支持跨项目发布,扩展采集数据源以及数据库SQL支持范围,数据集成支持性能诊断测试,标签将支持批量操作等。还有更多功能,敬请期待。


4. 往期版本升级回顾




联系我们,欢迎扫码请扫码加入钉钉群:

image.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
8天前
|
存储 人工智能 搜索推荐
解锁AI新境界:LangChain+RAG实战秘籍,让你的企业决策更智能,引领商业未来新潮流!
【10月更文挑战第4天】本文通过详细的实战演练,指导读者如何在LangChain框架中集成检索增强生成(RAG)技术,以提升大型语言模型的准确性与可靠性。RAG通过整合外部知识源,已在生成式AI领域展现出巨大潜力。文中提供了从数据加载到创建检索器的完整步骤,并探讨了RAG在企业问答系统、决策支持及客户服务中的应用。通过构建知识库、选择合适的嵌入模型及持续优化系统,企业可以充分利用现有数据,实现高效的商业落地。
35 6
|
8天前
|
机器学习/深度学习 人工智能 开发框架
解锁AI新纪元:LangChain保姆级RAG实战,助你抢占大模型发展趋势红利,共赴智能未来之旅!
【10月更文挑战第4天】本文详细介绍检索增强生成(RAG)技术的发展趋势及其在大型语言模型(LLM)中的应用优势,如知识丰富性、上下文理解和可解释性。通过LangChain框架进行实战演练,演示从知识库加载、文档分割、向量化到构建检索器的全过程,并提供示例代码。掌握RAG技术有助于企业在问答系统、文本生成等领域把握大模型的红利期,应对检索效率和模型融合等挑战。
46 14
|
5天前
|
人工智能 搜索推荐 机器人
挑战未来职场:亲手打造你的AI面试官——基于Agents的模拟面试机器人究竟有多智能?
【10月更文挑战第7天】基于Agent技术,本项目构建了一个AI模拟面试机器人,旨在帮助求职者提升面试表现。通过Python、LangChain和Hugging Face的transformers库,实现了自动提问、即时反馈等功能,提供灵活、个性化的模拟面试体验。相比传统方法,AI模拟面试机器人不受时间和地点限制,能够实时提供反馈,帮助求职者更好地准备面试。
12 2
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
智能CRM系统排名2024:AI技术如何提升客户管理
在数字化时代,人工智能(AI)技术正逐渐成为企业提升客户管理能力的关键因素。智能CRM系统通过集成AI技术,不仅能够自动化日常任务,还能提供深入的客户洞察,从而帮助企业实现更高效的销售和更个性化的客户服务。AI技术在CRM系统中的应用包括:24/7的自动化客户服务、客户行为分析、个性化推荐以及销售预测和管道管理。根据2024年市场表现和用户反馈,纷享销客、用友CRM、金蝶CRM、悟空CRM、普华基石CRM、珍客CRM、八百客CRM和销帮帮CRM等智能CRM系统表现出色。其中,纷享销客凭借先进的AI技术成为行业领导者。企业应积极探索AI与CRM的集成,实现客户管理的数字化转型。
|
9天前
|
人工智能 缓存 Java
深入解析Spring AI框架:在Java应用中实现智能化交互的关键
【10月更文挑战第12天】Spring AI 是 Spring 框架家族的新成员,旨在满足 Java 应用程序对人工智能集成的需求。它支持自然语言处理、图像识别等多种 AI 技术,并提供与云服务(如 OpenAI、Azure Cognitive Services)及本地模型的无缝集成。通过简单的配置和编码,开发者可轻松实现 AI 功能,同时应对模型切换、数据安全及性能优化等挑战。
|
10天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
11天前
|
人工智能 自然语言处理 数据挖掘
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
28 1
|
12天前
|
机器学习/深度学习 人工智能 边缘计算
AI技术趋势:从自动化到智能化的演变
AI技术趋势:从自动化到智能化的演变
|
14天前
|
数据采集 人工智能 算法
近五千支队伍决战AI之巅, AFAC2024金融智能创新大赛在2024 Inclusion · 外滩大会完美收官
自从2022年12月ChatGPT上线以来,全球掀起了一场你追我赶的AI竞赛,不少国家都在全力以赴,抢占制高点。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云百炼大模型:引领企业智能化升级的下一代 AI 驱动引擎
随着人工智能技术的快速发展,大规模预训练模型正在改变各行各业的智能化进程。阿里云百炼大模型(Ba-Lian Large Model)作为阿里云推出的企业级 AI 解决方案,通过深度学习、自然语言处理、计算机视觉等前沿技术,帮助企业实现智能化升级,提升业务效率和创新能力。本文将详细介绍阿里云百炼大模型的核心技术、应用场景及其优势,帮助企业更好地理解和利用这一革命性工具。
18 0