告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。

当前,AI技术的爆发式增长正在倒逼企业重新审视数据治理的价值——当业务部门期待用数据驱动决策时,却常因指标口径不统一数据血缘不透明陷入内耗;当技术团队投入重金训练模型时,又可能因基础数据质量缺陷导致AI应用事倍功半。

 

AI时代,如何让数据治理从成本中心蜕变为业务引擎

 

37日「数据荟」Meet Up上海站中,瓴羊Dataphin高级技术专家周鑫指出:数据治理实施的最大困难,在于整个治理过程抓的点太多。这一论断揭示了行业共性困局:企业往往在多个治理模块中疲于奔命,却因缺乏核心抓手难以形成持续价值。对此,企业如何破局?阿里云智能集团瓴羊高级技术专家周鑫提出以数据标准为中心,贯穿数据全生命周期,强调以标准化重构治理链路,让数据真正成为业务增长的燃料。

 

 

数据治理的定海神针:为什么标准是破局关键?

 

从实施链路来看,数据治理为何如此困难?

 

大部分企业进行数据治理时,往往经历评估现状、制定目标、执行计划、持续监控四个步骤,在如此漫长的链路中,既要考虑数据质量、数据质量、数据安全或生命周期,还要在保持较低成本的同时,照顾到整个组织架构,需求不可谓不繁琐。周鑫表示,传统治理步骤面临四大问题:缺少简单易用的实施方法、治理链路复杂、工具支撑不足、难以持续治理。

image.png

正是这一困境,导致企业在实施阶段很容易偏离中心,缺少一个核心抓手。即使艰难完成治理,后续迭代也非常困难,一个目标的改动,可能牵一发而动全身,造成数据安全与质量规则的反复调整,大大拖慢了治理进度。

 

因此,问题的关键,是找到数据治理的核心——数据标准。

 

近年来,国家频频颁布数据标准相关政策规范,从《数据要素x”三年行动计划》到国家数据标准体系,再到全国数据标准化技术委员会,都印证了数据标准的重要位置。

 

当企业把数据标准定下来的时候,治理工作已经做了很大一部分了,周鑫表示,以瓴羊Dataphin为例,企业完成业务与数据盘点,并将数据纳入数据元中心后,即可在Dataphin梳理数据标准。数据标准的建立不仅贯穿数据建模、研发等事前环节,还能通过生成质量规则和安全识别、分类分级等功能,实现对数据事中及事后的全面管控。

image.png

如此一来,用户在落标时,只需关心那些没有满足标准的数据即可。例如,在手机号的标准设置中,系统会根据用户设定的属性要求,自动生成一系列质量校验规则,确保相关字段数据符合标准;在访问权限上也会自动匹配审批流程,帮助快速识别和处理不合规的数据。这使数据标准的满足度与落标情况,成为衡量数据质量优劣的晴雨表,数据满足度越高,数据质量也就越好。

 

AI驱动的主动治理:从人找数据数据找人

 

AI时代奔迅而至,激活了数据治理的一池春水。AI技术爆发式增长的当下,数据治理的机会在哪里?

 

周鑫认为,通过AI+数据治理的结合,可以实现完整的主动数据治理。

 

首先,在数据标准阶段,通过AI逆向生成码表、数据标准以及数据模型可以很大程度地降低从业务到标准、到模型的实施成本。其次,在AI时代,数据从结构化到非结构化、从数据知识到语义知识的变化,通过丰富语义知识能促进AI的成功,企业可借助AI自动构建质量规则,实现分类分级和特征识别,管控数据整个生命周期,在数据治理结束后,AI还可自动识别治理效果,提供治理策略指引,形成数据治理的良性内循环。最后,在资产运营阶段,通过和AI的结合,自动生成专题目录,智能丰富资产元数据和智能找数问数,帮助企业低成本的管理和使用数据资产。

image.png


 

Dataphin的治理实践:让数据资产主动适配业务需求

 

我是电商业务负责人,今年大促目标是GMV提升20%,数据能帮我做什么?

我正在准备做运营外投,对于圈选母婴群,希望从数据上结合知识库,有什么建议?

我是产品运营,我想了解产品的销量指标定义是什么?

……

AI的助力下,以上数据资产应用问题,都可以通过对话的方式得到回应。

 

而承载这一功能的平台,便是智能小D

 

智能小D能够通过业务问题直接定位数据资产,例如当问它'如何进行客户分层?'时,基于思路策略,寻找提供对应的数字资产表,周鑫表示,智能小D基于Dataphin打造,由阿里云百炼平台和开源Dify提供支持,核心功能聚焦于知识管理,尤其擅长数据知识的梳理和应用。未来,智能小D将进一步支持非结构化知识和智能体管理,用户还可通过挂载自定义智能体,实现智能体的个性化定义与功能拓展。

image.png

 

借助智能小D,用户可以直接询问具体的业务需求,如我要找客户表我要做客户分层,需要那些表?销量下降明显,可能的原因有哪些?等,大模型将根据用户需求,通过分解、联想等方式,为其快速提供对应的数据资产表,让用户无需BI分析师的专业技能,也能实现轻松读数。

 

 

 

除此之外,Dataphin还在属性丰富方面引入了AI能力简化了数据上架的流程。以往,一张表上架到目录,需要历经以下几个步骤:针对上百个字段,逐一描述其名称与含义;熟知运营方目录,制定便于搜索的标签;若过程中发现新增指标需求,还需返回重新填写目录和标签。

 

比如500个字段、大宽表的情况下,操作下来至少需要半小时,而结合我们的AI能力,整个资产上架的过程能得到极大的提效,周鑫表示,Dataphin可以帮用户智能生成所有描述,规划所有目录,自动识别潜在指标,待用户确认无误后,即可一键上架,几十秒即可完成所有资产上架工作。

image.png

 

在特征识别方面,Dataphin通过引入AI能力,降低了识别门槛,加快了识别速度。例如,在进行身份字段设置时,传统方法需要编写SQL能够识别的正则表达式,性别识别还需顾及成千上万张资产表复杂的表达方式,很难一次性枚举种种条件。引入AI能力后,Dataphin即可以自动生成所有的正则表达式,几十秒内即可完成一次特征识别。

  image.png

在数据治理与AI融合的远期规划中,周鑫提出 "迈向智能化最大的标识自助治理,是通过AI能力,基于业务变化自动调整治理目标、策略,最终调整业务动作" 。面对海量数据质量参差、治理链路冗长的挑战,周鑫指出 "从小的业务、领域切入,通过将问题求解集合缩小到特定领域,加快提升数据质量。这一实践路径的核心在于,初期在有限业务圈内优化数据质量与Agent能力,同步注入行业知识库与业务逻辑,以渐进式迭代实现治理闭环。

 

周鑫指出,目前Dataphin的数据治理AI计划正处于提效阶段。在这一阶段,Dataphin将进一步引入更多行业和业务知识,增强对非结构化数据的理解能力,并辅助生成质量规则。随着提效阶段的完成,数据治理将迈入自动化阶段,平台将实现质量规则的自动生成、分类分级的自动处理,以及敏感数据的自动识别等功能。最终,在更高阶的智能化阶段Dataphin将基于对业务流程的深度理解,实现系统自动生成数据标准,全面提升数据治理的智能化水平。

image.png

 

 

正如《大数据之路2》书中所言,当数据标准贯穿全生命周期,治理动作无缝融入业务流时,企业才能真正将数据资源转化为驱动业务增长的"活水",实现从数据支撑数据驱动的质变。

 

未来,瓴羊将持续深化AI与数据治理的融合创新,助力企业深化数据智能应用,高效构筑企业洞察市场、优化策略、提升竞争力的宝贵资产。

相关文章
|
1月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
467 43
|
1月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
155 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
2月前
|
人工智能 自然语言处理 安全
ChatBI,用AI自然语言与数据对话
在数字经济快速发展的2025年,企业数据量激增,市场对快速决策和深度分析提出更高要求。本方案介绍如何通过阿里云Quick BI工具,结合AI能力,帮助商业分析师高效应对数据洪流,实现智能化分析、快速决策,提升业务洞察力与决策效率。
ChatBI,用AI自然语言与数据对话
|
2月前
|
人工智能 自然语言处理 供应链
走进麦当劳·会数据同学:解锁AI在企业应用的深度价值
麦当劳中国进入“金拱门时代”,加速数字化转型,计划未来4年投入40亿元用于研发创新。携手阿里云与瓴羊,构建以客户为中心的数字系统,优化消费体验与门店运营,打造全球数字化标杆。
|
2月前
|
人工智能 自然语言处理 算法
AI与API结合:自动解析商品描述+情感分析评论数据
AI与API深度融合正在重塑电商运营模式。通过自动解析商品描述、分析评论情感,企业可实现信息标准化、用户画像精准化及运营决策自动化。本文从技术架构、核心算法、实战案例三方面,详解AI如何驱动电商智能化升级。
|
2月前
|
SQL 人工智能 自然语言处理
数据 + 模型 驱动 AI Native 应用发展
随着人工智能技术的飞速发展,从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用,旨在为读者提供一个全面的视角,以理解如何利用数据和模型驱动 AI Native 应用的发展。
140 0
|
2月前
|
人工智能 供应链 数据挖掘
瓴羊入选中国信通院《AI Agent智能体产业图谱》
2025数据智能大会在京召开,中国信通院发布《AI Agent智能体产业图谱1.0》,瓴羊Quick BI凭借智能数据分析能力入选。该图谱系统梳理AI Agent产业生态,涵盖基础底座、平台、通用与行业智能体四大领域。Quick BI通过融合大模型技术,重构企业数据分析方式,实现从“被动响应”到“主动服务”的升级,广泛应用于供应链、零售、财务等多个场景。此次入选标志着瓴羊在数据分析智能体领域的创新成果获高度认可。作为阿里巴巴旗下数智服务品牌,瓴羊将持续推动企业智能化转型,释放数据价值,助力“人工智能+”深度发展。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
170 99
|
8天前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
|
1月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。

热门文章

最新文章