瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。

作者: 周鑫 阿里云瓴羊智能科技高级技术专家



近年来,尽管 AI Agent 实现了爆发式增长,但许多企业仍面临 AI 应用与实际业务脱节的难题,其关键原因之一,在于数据质量不佳。根据Gartner的预测,2025 年中国至少三分之二的生成式人工智能项目,将由于数据质量差而面临“终结”。

AI时代,如何才能把握住数据治理机会,让数据真正为业务服务?

瓴羊「数据荟」数据Meet Up 第3站线上开讲,为大模型时代的数据治理创新实践献智献策。阿里云智能集团瓴羊高级技术专家周鑫围绕“AI驱动的数据治理”,从数据治理面临的难题出发,聚焦AI时代数据治理机会,剖析了瓴羊Dataphin在面对数据治理这一关键议题时的提效方案。

数据标准:数据治理“化零为整”的核心

从实施链路来看,数据治理为何如此困难?

“整个数据治理实施过程困难重重,主要体现在现状评估难、组织架构复杂、实施成本高,治理迭代难,造成最大的原因是整个治理过程关注的点太多了,没有核心的抓手”,周鑫表示,大部分企业进行数据治理时,往往经历评估现状、制定目标、执行计划、持续监控四个步骤,每一项都需要大量的工作,导致治理动作非常零散。

这些零散的需求点,导致企业在实施阶段很容易偏离治理目标,缺少一个核心抓手。即使艰难地完成治理,后续迭代也非常困难,随着业务的变化,需要调整治理目标时,没有办法增量的迭代,又需要重头开始评估执行,已完成的治理项的变更影响也需要全量评估,使得治理成本变得非常高。

因此,问题的关键,是找到数据治理的核心抓手——数据标准。

近年来,国家频频颁布数据标准相关政策规范,从《“数据要素x”三年行动计划》到国家数据标准体系,再到全国数据标准化技术委员会,都印证了数据标准的重要位置。

“企业只需完成数据标准的梳理,即可完成大部分数据治理工作”,周鑫表示,以瓴羊Dataphin为例,企业完成业务与数据盘点后,统一进入到Data Catalog,在此基础上梳理数据标准。Dataphin在数据标准的建立过程中会自动生成元数据和内容的监控,数据标准会贯穿数据的整个生命周期,实现对数据的事前、事中和事后的标准落标稽核。


例如,在身份证号的标准设置中,系统会根据用户填写的标准属性,自动生成一系列元数据和内容监控,以及安全的分级。用户在治理过程中,只需关心那些没有满足标准的数据即可。这使数据标准的落标情况,成为衡量数据质量优劣的“晴雨表”,符合数据标准的数据越多,数据质量也就越好。


AI激活一池春水,数据治理的提效之道

AI时代奔迅而至,激活了数据治理的一池春水。在AI技术爆发式增长的当下,数据治理的机会在哪里?

周鑫认为,结合AI对数据治理提效的实现完整的主动数据治理,包括以下几点。

首先,通过AI能很好地理解结构化数据和非结构化的数据,自动化地进行业务梳理, 促进数据标准建设的效率。其次,在数据标准建设完成后,企业可借助AI实现自动治理:构建质量规则,实现分类分级和特征识别,管控数据整个生命周期。最后,数据治理动作完成后,AI还可自动评估治理效果,自动改进治理策略,形成数据治理良性内循环。


Dataphin解决方案:让“好数据”成就“好业务”

“我是电商业务负责人,今年大促目标是GMV提升20%,数据能帮我做什么?”

“我正在准备做运营外投,对于圈选母婴群,希望从数据上结合知识库,有什么建议?”

“我是产品运营,我想了解产品的销量指标定义是什么?”

……

在AI的助力下,以上数据资产应用问题,都可以通过对话的方式得到回应。

而承载这一功能的平台,便是智能小D。

智能小D承担了数据PD与数据架构师的角色,它可以根据每一条策略,找到与之对应的数据资产表”,周鑫表示,智能小D基于Dataphin打造,由阿里云百炼平台和开源Dify提供支持,擅长数据知识的梳理和应用。未来,智能小D将进一步支持非结构化知识和智能体管理,用户还可通过挂载自定义智能体,实现智能体的个性化定义与功能拓展。

借助智能小D,用户可以直接基于业务需求找数据,如“我要找客户表”、“我要做客户分层,需要哪些表?”、“销量下降明显,可能的原因有哪些?”等,大模型将根据用户需求,通过分解、联想等方式,为其快速提供对应的数据资产表,让用户无需将需求拆解成资产的关键词,也能实现轻松找数。


除此之外,Dataphin还在属性丰富上引入了AI能力简化了资产上架的流程。以往,一张表上架到目录,需要历经以下几个步骤:针对表及其所有字段,逐一描述其名称与含义;熟知上架目录,制定便于搜索的标签;若过程中发现表中的指标也需要上架,还需返回重新填写目录和标签。

“一套几百个字段下来,至少半小时才能将这张表完整地上架,我们引入AI能力后,把速度提高了近百倍,周鑫表示,Dataphin可以帮用户智能生成所有描述,规划所有目录,自动识别潜在指标,待用户确认无误后,即可一键上架,几十秒即可完成所有资产上架工作。


在特征识别方面,Dataphin通过引入AI能力,降低了识别门槛,加快了识别速度。例如,在进行性别字段识别时,需要编写SQL能够识别的正则表达式,还需要探查多种数据的表达,例如:(男/女、Malel/Female、Sex/性别),很难一次性枚举种种条件。引入AI能力后,Dataphin即可以自动生成所有的正则表达式,几十秒内即可完成一次特征识别。


周鑫指出,目前Dataphin的数据治理AI计划正处于提效阶段。在这一阶段,Dataphin将进一步引入更多行业和业务知识,增强对非结构化数据的理解能力,并辅助生成质量规则。随着提效阶段的完成,数据治理将迈入自动化阶段,平台将实现质量规则的自动生成、分类分级的自动处理,以及敏感数据的自动识别等功能。最终,在更高阶的智能化阶段,Dataphin将基于对业务流程的深度理解,实现系统自动生成数据标准,全面提升数据治理的智能化水平。


著名的信息技术领域思想领袖J. Ladley 在其著作《数据治理》中宣称,数据治理的最终目标是让它不再是一个独立的计划,而是成为业务核心的一部分。未来,瓴羊旗下Dataphin将发挥自身在数据治理领域的深厚沉淀,致力于将数据治理融入业务环节,推动其从支撑性工具走向核心驱动力,以智能化手段赋能企业战略决策与创新实践。



(如对瓴羊Dataphin数据治理感兴趣,欢迎扫码入群领取Dataphin白皮书)

相关文章
|
28天前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
60 14
|
5天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
167 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
7天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
425 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
23天前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
245 10
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
7天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
72 14
|
29天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
118 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
13天前
|
人工智能 运维 监控
AI驱动的操作系统服务评测报告
作为一位运维工程师,我使用Alibaba Cloud Linux 3操作系统进行云资源的运维和管理。通过控制台可快速开通并管理云资源,界面简洁、功能明确。安装SysOM和OS Copilot组件简单高效,支持实时监控集群健康状况,并提供精准的系统诊断与优化建议。OS Copilot智能助手能有效解答技术问题,提升工作效率。针对EOL系统的订阅服务提供了安全迁移保障。整体体验优秀,尤其适合中小企业降低运维复杂度。建议进一步优化权限管理、增加报告导出功能及增强Copilot交互性。
|
28天前
|
人工智能 运维 监控
探索未来:AI驱动的操作系统服务评测
### 探索未来:AI驱动的操作系统服务评测 本文介绍阿里云新推出的AI驱动操作系统服务套件,为运维工程师和开发者提供免费、智能的操作系统管理体验。通过Alibaba Cloud Linux的实际操作,评估其安装便捷性、系统健康监控、智能助手OS Copilot等功能。该服务显著提升了工作效率约30%,并增强了服务可靠性。AI技术的融入使系统管理更加智能化,值得尝试。
67 16
|
1月前
|
人工智能 自然语言处理 数据可视化
校企合作|TsingtaoAI携手潍坊学院,共建AI驱动的党建信息化系统
TsingtaoAI与潍坊学院近日达成合作,正式签署《人工智能党建信息化系统开发》技术开发合同,计划在未来两年内联合开发一套集党员教育、党务管理、党建活动智能化以及数据可视化于一体的智能党建系统。本次合作将充分结合TsingtaoAI在AI大模型领域的技术优势和潍坊学院的学术资源,为推动党建工作的数字化、智能化和高效化注入新的动力。
47 10
|
1月前
|
人工智能 运维 Linux
AI驱动的操作系统服务体验:大模型时代的运维革新
AI驱动的操作系统服务体验:大模型时代的运维革新
41 5

热门文章

最新文章