数据「熵增」时代,AI如何以标准重构治理秩序?

简介: 在AI时代,数据治理面临诸多挑战。据Gartner预测,到2027年,80%的数据治理举措或失效。如何构建统一标准、实现可持续治理成为关键。Dataphin以数据标准为核心,结合AI技术,提出体系化、易落地、可持续的数据治理方法,助力企业实现数据“熵减”,提升数据质量与治理效率。通过智能Agent赋能,Dataphin在NL2SQL、智能找表、数据分析等场景显著提效,推动企业向自动化、智能化治理转型。

Agent热潮不减,但数据分析与治理状况却仍存在短板。据Gartner公司预测,到2027年,80%的数据和分析治理举措或将因各类原因而失效。如何在AI时代重塑数据治理体系,让混乱数据重归有序,成为企业智能转型的关键命题。

近日,在infoQ举办的全球人工智能开发与应用大会上,瓴羊智能数据建设与治理产品 Dataphin 高级技术专家 周鑫 受邀出席,以「基于统一标准的智能数据治理 Dataphin 的落地实践」为主题,系统阐述了以数据标准为核心,实现可持续数据治理的方法论,以及以AI赋能自动化数据治理、重构复杂业务流程的实践路径。

01 数据「熵减」之道:基于统一标准,打造数据治理方法论

“事物天生具有‘变混乱’的趋势,数据也是如此。如何将无序变得有序?按照热力学第二定律,需要从外界输入能量,并且具备感知能力。”

周鑫表示:“对于数据治理来说,能量就是治理工具,感知就是标准规范。”数据治理是实现数据世界的“熵减”,它可以通过现状评估、制定目标、执行计划、持续监测四个治理阶段,帮助数据生产者打破孤岛,实现低成本数据开发,帮助数据管理者做好资产盘点,确保数据质量与安全,帮助数据使用者便捷用数,助力决策分析。

但在现实情况中,许多数据治理的结果通常会面临失败,周鑫将其归结为四个原因:1)治理动作分散,缺乏体系化方法论;2)治理流程复杂,重度依赖人的能力和素质;3)缺乏工具支撑,导致理论与实施脱节;4)无法持续治理,治理策略难以快速调整。

面对以上四类问题,Dataphin提出了一套以数据标准为中心的数据治理方法论及产品化的落地。其核心逻辑为:聚焦Data x AI,用中台方法论构建统一的数据标准,打造企业级好数据,帮助企业形成数据生产、数据消费、行业数据流通的数据要素服务链,驱动数据价值的释放。

“方法论的核心关键,在于以数据标准为中心。数据标准贯穿数据整个生命周期,它让数据治理具备核心抓手,不会漫无目的”,周鑫表示,企业需从核心业务入手,先行试点开展业务梳理与盘点工作,将相关统一纳入 DataCatalog,并在此过程中逐步形成对应的数据标准。

标准梳理完成后,平台即可开展标准构建:通过统一的数据标准,自动实现质量监控与安全分类,保障开发过程规范,阻断不规范数据开发。同时,统一标准可提升数据的可理解性与细节清晰度,实现数据从生成、开发到消费的全生命周期标准化管理。

“整个治理链路就是以数据标准为中心,将传统的复杂的治理手段,简化成数据标准的梳理与治理效果的评估过程,数据符合标准的程度越高,整体数据质量也就越好”。

周鑫表示,该方案以数据标准为核心,通过插件集成、API注册和准实时同步等多种方式采集元数据,并统一纳入 DataCatalog,结合质量规则和安全策略进行自动识别与治理。这一方法论具备三大优势:一是体系化,明确治理目标与路径;二是易落地,借助一体化工具和AI能力,贯穿数据全生命周期;三是可持续,以标准驱动模式便于应对业务变化,有效降低治理成本与复杂度。

02 语义知识+流程提效,智能Agent多场景赋能数据治理

许多企业在应用 Agent 时都难免遇到一个难题:Agent 虽然具备一定的智能和对话能力,但在复杂业务场景中常常“空转”,无法真正理解业务语境、解决预期的实际问题。

周鑫表示,造成这一现象的根本原因,“在于数据质量偏低或数字化基础薄弱,导致Agent无法有效发挥价值,最终企业只能被迫放弃”。

AI时代,优质数据至关重要,但“好数据”应如何获取?AI又该如何赋能数据治理?

首先,“Agent在没有丰富准确的语义知识下,不可能达到可生产使用的准确率”,周鑫认为,企业获取好数据,需要构建准确且丰富的语义知识体系。Dataphin针对这一需求,打造了包含元数据数据标准数据模型业务知识 四大语义知识体系。企业可以通过采集丰富且统一的元数据,建立涵盖码表、词根、值域及安全分类分级的标准体系,依托Dataphin智能构建的概念模型、逻辑模型和物理模型,以及对业务词条和逻辑的高效管理,实现对复杂业务知识的精准映射和应用。

以NL2SQL为例,Dataphin通过引入业务语义,不仅提升了问题泛化能力,还大幅提高了SQL匹配的准确率,显著增强了对自然语言的理解能力。实测数据显示,在Dataphin开放数据共享模型涵盖的45个典型问题中,简单问题的SQL准确率从70%提升至80%,而中等及复杂问题的准确率更是从10%跃升至60%。

其次,企业还需借助AI,对数据治理链路进行提效。基于TaskWeaver改造,Dataphin构建了具备生产化能力的Agent框架,覆盖研发、治理、资产问答等多个场景,显著提升了现有流程效率,拓展了 Agent 的应用边界。

以 NL2SQL 为例,系统可在识别信息不全时自动发起反问,补全后再继续处理,确保复杂业务场景下依然具备高理解力与执行准确率。同时,Dataphin 的开放能力不断演进,从传统的 API 和数据服务扩展至 MCP 模式,支持更灵活的接入方式,适配非固定流程和动态交互等复杂需求。

智能找表场景,Dataphin有效解决了用户将复杂业务问题,转化为准确搜索词的难题。“引入AI后,你可以用业务的语言直接问,比如‘我要做客户分层’,‘我要用哪张表’,AI会用大模型去对业务问题进行拆解和泛化,最后找关联到你已有的全域资产”。

数据分析场景,Dataphin通过专辑机制与丰富的语义知识,解决了因语义知识的缺失或混乱,相似口径和命名干扰、以及海量表格带来的找表难题,显著提升了找表的效率与准确率。

数据治理场景,Dataphin通过“性别”等复杂字段特征识别,解决了正则表达式“不会写”、“看不懂”难题,取代了传统人工探查的繁琐过程,以往需要耗费十几分钟的特征识别,如今只需几十秒即可完成。

数据管家场景,资产上架往往涉及表描述、字段注释、目录归属、标签分类等复杂操作,尤其在字段数量众多时,人工维护工作量大、耗时长且易出错。通过引入 AI 能力,Dataphin支持属性信息的智能生成,可一键生成表/字段描述信息、目录、标签等,使人力成本与操作门槛大大降低。

目前,Data x AI 发展仍处于以模块提效为主的第一阶段;随着 AI 对复杂节点的处理能力增强,Dataphin正在以“智能工作台”有机整合独立模块,重构整体业务流程。“有了AI之后,工作台模式可以让很少的人,完成复杂的业务,每个环节都有大量AI和自动化能力支撑,人们干的最多的事情是进行确认。”周鑫表示,未来,AI还将在更多场景中深度参与,从辅助提效逐步向自动化、智能化方向迈进,推动企业实现数据治理范式的全面升级。



来源  | 瓴羊DaaS公众号


相关文章
|
2月前
|
消息中间件 人工智能 Kafka
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
367 30
|
2月前
|
人工智能 自然语言处理 安全
用AI重构人机关系,OPPO智慧服务带来了更“懂你”的体验
OPPO在2025开发者大会上展现智慧服务新范式:通过大模型与意图识别技术,构建全场景入口矩阵,实现“服务找人”。打通负一屏、小布助手等系统级入口,让服务主动触达用户;为开发者提供统一意图标准、一站式平台与安全准则,降低适配成本,共建开放生态。
307 31
|
3月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
391 28
|
2月前
|
人工智能 缓存 并行计算
用数学重构 AI的设想:流形注意力 + 自然梯度优化的最小可行落地
本文提出两个数学驱动的AI模块:流形感知注意力(D-Attention)与自然梯度优化器(NGD-Opt)。前者基于热核偏置,在局部邻域引入流形结构,降低计算开销;后者在黎曼流形上进行二阶优化,仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径,兼顾性能与工程可行性,助力几何感知的模型设计与训练。
259 1
|
2月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3641 48
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
329 99
|
4月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
303 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
4月前
|
人工智能 安全 算法
四位大咖齐聚 《AI 进化论》第二期揭秘专有云 OS 安全信任基石重构之道
《AI 进化论:智算时代操作系统的破局之路》系列直播第二期「重构专有云操作系统安全信任基石」将于 8 月 13 日 14:00 开始。
|
人工智能 Cloud Native 搜索推荐
【2025云栖大会】阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式
2025云栖大会阿里云AI搜索专场上,发布了年度AI搜索技术与产品升级成果,推出Agentic Search架构创新与云原生引擎技术突破,实现从“信息匹配”到“智能问题解决”的跨越,支持多模态检索、百亿向量处理,助力企业降本增效,推动搜索迈向主动服务新时代。
372 0
|
2月前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)