Dataphin V3.7 版本发布!通过国产化适配、数据研发体验优化、数据治理能力提升和标签平台,帮助企业加速构建数据中台

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本次发布的V3.7版本中,Dataphin重点围绕资产建设平台的易用性及可交付性、资产治理平台的完备性以及基础平台的稳定性和开放性进行优化与升级。通过国产化支持适配、数据研发体验优化、数据治理能力提升和标签平台,帮助企业加速构建企业级数据中台,轻松拥有好数据!

一、关于Dataphin(智能数据建设与治理)

Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

二、DataphinV3.7版本升级功能点

01-国产化支持与适配,响应市场需求

  • 国产操作系统适配:支持龙蜥操作系统。
  • 国产浏览器适配:支持奇安信浏览器。
  • 国产数据库支持:支持人大金仓(KingBaseES)、南大通用(GBase 8a)、GoldenDB、TiDB数据库的离线集成。

02-研发体验优化,加速企业数字能力建设

  • 逻辑表详情优化:增加逻辑表建模的"规范性"含量,包括承接概念模型,增加类型约束,增加业务属性;通过创建编辑逻辑表流程向 导化,提升交互体验;通过交互设计隐藏或弱化概念, 降低理解成本。
  • 新增运行记录功能:对于开发环境的即席查询,运行计算任务、逻辑表数据预览、派生指标冒烟测试、资产数据预览及OpenAPI数据查询提供查看代码、查看执行日志、停止运行、下载结果等功能,集中管理运行会话。
  • 集成优化:离线集成管道支持自动解析依赖与输出;字段计算组件提供函数支持将二进制类型转换成16进制字符串;集成任务菜单树优化,支持任务筛选;API输入组件支持中文字段;屏蔽组件模式下Teradata的视图;实时增量集成至Hive新增自定义建表功能。
  • 实时研发:元表创建及使用全流程体验优化;Flink SQL任务支持SQL Hints;实时研发链路体验优化,包括编译、提交、发布错误提示优化。
  • 发布审批:支持在项目配置中开启发布审批,以增加发布环节的管控灵活性;优化发布列表筛选及发布记录详情展示,提升易用性。
  • 运行配置支持在运维中心配置租户级任务超时时间、自动重试次数和重跑间隔,提升可配置性。
  • 权限申请:持按照表级进行权限的申请、授权与鉴权,提升权限申请和授权效率。

03-数据治理能力提升,保障企业数据质量与安全

  • 数据标准体验优化支持配置标准可见范围、审批模板以适配个性化管理诉求;支持跨标准集检索数据标准以提升检索效率;支持配置公共标准集属性以实现一次创建多次复用,支持查看落标映射规则执行明细。
  • 全域质量覆盖数据源拓展新增数据源连通性和表结构异动检测支持的数据源(HANA、Teradata、DM(达梦)、OceanBase、Clickhouse、MongoDB、IBM DB2、PolarDB、Impala、TDH Inceptor、Kudu);新增全域资产质量支持的数据源(IBM DB2、AnalyticDB for PostgreSQL、Hologres、ClickHouse、DM(达梦)、HANA)
  • 资产安全:增加安全识别任务的展示,可查看历史识别任务结果和字段识别详情;识别规则支持手动执行和更新。
  • 04-Dataphin新增标签平台,完备企业数智化建设能力
  • 标签平台:增加标签平台模块,包含标签及群组资产市场管理、类目设置、实体ID定义,标签群组开发分析,应用创建及管理,在应用中提供标签离线服务以及实时服务能力

三、新版本重点特性详解及应用场景示例

特性1:逻辑表详情优化

应用场景:数据规范建模,提升构建逻辑表的易用性与用户体验。

承接概念模型,将碎片化的操作整合为向导式流程操作, 并支持逻辑表字段排序功能,提升数据模型开发的效率与易用性。


特性2:数据标准

应用场景:支持标准可见权限和审批模板配置,可查看落标映射明细,标准使用

1、标准集:新增公共标准集属性,支持配置可见范围和审批模板,提升配置效率和业务适配性

支持配置公共标准集属性,可在编辑标准集时快速引用,实现一次配置多次复用,适用于多个标准集都通用的属性,如来源业务部门、标准描述等。标准属性支持配置默认值,可在创建标准时默认填充,在降低操作成本的同时也可以提升配置效率,适用于针对大部分标准属性值都一致的属性。

此外,新增支持配置不同标准集下创建的标准的可见范围,以满足精细化的权限管理诉求;支持自定义审批模板,可创建多个审批节点,每个节点支持配置多个并行审批人,并应用于标准上线审批,以支持灵活多样的审批场景。

2、标准:支持跨标准集查看全量标准,标准检索更自由更灵活。

3、支持在落标明细页面查看每个标准映射到的资产对象,同时也支持在资产目录查看每个资产对象映射到的标准,让落标稽查有据可循。


特性3:标签平台

应用场景:灵活简单开发标签

支持离线、实时、服务类标签等多种类型标签开发。提供可视化标签加工方式,通过表单、拖拉拽规则配置方式定义标签加工逻辑,有效降低标签开发成本。

应用场景:统一标签/群组资产管理、查找、应用

通过资产市场可以查看已上架标签、群组上新情况、热度以及资产详情,资产详情包括其分布信息、使用统计、加工逻辑、血缘等。选择目标资产可申请至项目或应用进行二次加工或创建服务。有效降低标签/群组资产使用成本。

应用场景:标签离线服务、实时查询,实现标签快速应用

提供应用定义以及管理功能,基于应用提供批量标签同步离线服务能力,或者接口调用实时查询服务能力,让标签使用方基于实际业务场景快速实现标签应用。

特性4:新增运行记录功能

应用场景:记录开发环境的运行历史,

便于管理与查看运行任务记录。

对于开发环境的即席查询,运行计算任务、逻辑表数据预览、派生指标冒烟测试、资产数据预览及OpenAPI数据查询提供查看代码、查看执行日志、停止运行、下载结果等功能。集中管理运行会话,减少重复劳动,提高效率。


特性5:国产化数据源支持与适配

应用场景:满足对于国产数据源的集成需求,助力打破企业数据孤岛。

新增支持了人大金仓(KingBaseES)、南大通用(GBase 8a)、GoldenDB以及TiDB四个国产数据库的离线集成。


特性6:离线集成任务配置体验优化

应用场景:提升在配置集成任务时的流畅度与用户体验。

1、离线管道任务支持自动解析上油依赖与输出名。

支持自动解析依赖对象,包括解析上游的物理节点与逻辑表节点。在没有解析出上游依赖的情况下,也支持一键添加根节点为上游依赖。支持自动析持输出对象名称。提高集成任务配置的效率、准确性与规范性。

2、集成任务菜单树支持任务筛选。

离线集成任务支持根据任务周期、任务状态、任务模式以及负责人筛选集成任务;实时集成任务支持通过任务状态以及负责人筛选,帮助用户在大量任务中快速定位自己想找的任务,提高工作效率。


特性7:实时集成至Hive支持自定义新建目标表

应用场景:实时增量集成至Hive时,可自定义建立目标表。

在进行实时增量同步至Hive时,用户可能会有在目标表添加源表没有的字段的需求。通过添加全局字段,单表支持DDL自动建表以及添加单表字段等方式,用户可根据实际的业务场景及需求建立实时集成的目标表,便于特定业务场景的使用。


特性8:实时研发体验优化

应用场景:简化用户操作,降低学习成本,提升用户体验、提高研发效率。

元表创建及使用流程优化,根据不同数据源特性做差异化处理,元表参数配置结构化,提供可选项及说明,数据源原始字段类型与Flink SQL字段类型映射关系直观展示。


特性9:实时研发流批一体任务支持绑定不同计算源

应用场景:流批任务绑定不同计算源,成本分开管控,帮助成本消耗高且敏感型的客户降本增效。


特性10:新增发布审批流程

应用场景:支持开启发布审批,提高发布环节管控力

不同企业的发布审批流程存在差异,对于开发运维一体的企业通常是由一个人员来负责,而对于组织结构复杂、权限管控较为严格的企业,通常有专门负责发布审批的角色,评估任务是否要上线、什么时间上线、以及上线后是否会对线上已有业务及相关下游应用产生影响等,从而决策是否需要发布。本期新增发布审批能力,可在项目级别配置是否开启,开启后可自定义指定发布审批人,提高发布环节管控能力,让数据生产更安全放心。


特性11:租户级任务运行配置

应用场景:支持配置租户级运行超时时间、自动重试次数和重跑间隔,提升可配置性和运行稳定性。

任务运行会消耗调度资源和计算资源。某些场景下,由于代码逻辑不合理、配置错误等原因,任务的运行时长可能会远远超出预期,长时间占据大量资源,影响其他高优先级任务的正常运行,同时也产生额外费用,因此,我们需要给任务配置运行超时时长。如果运行总时长超过配置的超时时长仍未运行结束,则会自动被终止并置为失败状态。结合基线告警或任务运行失败告警等功能,可以及时发现异常并处理,避免影响下游业务或产生预期外的费用。

此外,在在数据源网络连通不稳定、并发异常等场景下,任务运行可能会失败。这种情况下,不需要执行额外操作,仅需要重跑任务即可使任务恢复正常运行。有了自动重试功能,可以大大减少重复的人工劳动。自动重试包括重试次数重试间隔,可结合网络情况等因素,灵活修改配置。另外一些场景,如写数据任务,即使运行失败也无法重试,否则可能会产生数据冲突。这种情况下,我们可以配置不自动重跑,来保证数据正确性。

有了自定义运行配置,可以结合业务需求变化灵活调整,提升整体运行稳定性。


特性12:表级权限申请

应用场景:对于整表进行权限的申请、审批、授权与鉴权,优化客户申请和授权体验,做到“只用管一次”。

在实际的权限管理中,既存在按照字段进行精确授权的场景,也存在着按照整表整体授权的场景。本次新增了按照数据表作为粒度的授权模式,提高了业务人员的管理效率,对非敏感表或有权限的同学,可以直接授权整表权限,后续有字段的变化等情况,会自动获得对应的权限


特性13:安全识别整体优化

应用场景:透出安全识别任务列表并展示每次识别结果详情,提高可用性与易用性。

之前的版本中,没有识别任务的执行记录,用户如果看不到识别任务详情,不知道安全任务是否执行,是否执行成功,也不知道为什么一个字段会被识别为某个规则,无法进行针对性的优化。

本次升级新增了识别任务与识别结果的透出,用户对于识别任务的执行详情有了清晰的了解,也知道了字段被打标的具体逻辑,可以更加有针对性地优化识别规则

应用场景:支持手动执行与更新安全识别规则。

在识别规则不严谨导致识别出错、客户自定义的规则不准确、或识别规则更改等场景下,会生成大量的错误识别记录。错误记录如没有被手动删除,遗留下来会阻塞线上使用,比如不应该脱敏的数据脱敏了。支持手动执行与更新识别规则后,对于历史上打上该规则的记录重新执行一遍校验,不满足的记录会被排除,使得识别结果更加精准


特性14:适配安信浏览器

应用场景:适配国产奇安信浏览器,满足企业多元化浏览器需求。


四、总结与展望

本次发布的V3.7版本中,Dataphin重点围绕资产建设平台的易用性及可交付性、资产治理平台的完备性以及基础平台的稳定性和开放性进行优化与升级。在下一个版本中,我们将持续提升资产建设平台与基础平台的的功能完备性与资产治理平台的易用性,敬请期待!






相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
3月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
801 2
|
3天前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
130 85
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”
|
23天前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
95 18
|
1月前
|
弹性计算 自然语言处理 数据库
通过阿里云Milvus和LangChain快速构建LLM问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
|
2月前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
194 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
2月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
134 0
|
3月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
3月前
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
70 0
|
8月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
8月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin