【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。

在这个AI智能化时代,每一比特的数据都蕴含着改变世界的潜能。

瓴羊「数据荟」数据Meet Up城市行系列活动为汇聚数据同行者,搭建开放交流的平台。在这里看见业内先进数据产品研究、分享成功企业经验,探索数据与企业应用的交融与创新,解锁数据未来的无限可能



第三期瓴羊数据Meetup 线上与大家见面,共同探讨AI时代的数据治理实践。


数据、算法与算力,被称为人工智能的三驾马车。在数据体量爆发性增长的当下,精耕细作的数据治理,或将成为企业赶上大模型风口的制胜关键。


瓴羊「数据荟」数据Meet Up第三站线上活动成功举办。来自中国信息通信研究院、阿里云智能集团、雅戈尔集团的业务主管、技术专家及大数据负责人,围绕“大模型时代的数据治理创新实践”主题,深入分享了AI与数据治理的深度融合、数据平台建设的最佳实践以及数据资产管理与运营的前沿见解。


大模型时代,数据治理四大趋势与三大堵点


中国信息通信研究院云计算与大数据研究所高级业务主管尹正指出,AI时代下的数据治理,将呈现出“全域数据治理”、“数据研发模式工程化、敏捷化”、“数据治理技术智能化”、“数据安全纵深化”四大趋势。


具体而言,全域数据治理将重点关注音视频、图片、文本等非结构化数据。在实践领域,中国移动、自动驾驶等企业已通过构建非结构化数据评价体系,关注合成数据技术,提升了数据集可信性,解决了“数据荒”难题。



在全域数据治理下,数据研发模式也随之发生变化,企业应打造面向AI与BI结合的数据工程“流水线”,以系统化方法提升效率、降低成本、保障质量、推动创新。同时,智能化数据治理将逐步取代传统劳动密集型模式,而AI驱动的数据安全技术与能力,将为解决数据安全关键问题、应对大模型安全挑战指明方向。



尽管趋势向好,但当前大模型发展仍面临质量、安全、伦理三大数据堵点,具体体现为:高质量数据集构建知易行难,安全与隐私泄露频发、数据伦理体系亟待完善。不过,面向AI的数据治理框架正在形成,人工智能数据治理的流程、方法、技术也在逐步完善。此外,依据DataOps理念构建面向人工智能的数据工程体系,为Al提供了敏捷高效、安全可信的数据供给,并进一步为企业人工智能长期平稳、良好、健康发展提供了保障。


以数据标准为抓手,让AI为数据治理提效


阿里云智能集团瓴羊高级技术专家周鑫指出,企业数据治理面临现状评估难、组织架构复杂、实施成本高、治理迭代难等多个难题,破解以上难题的最好方法,是找到核心抓手,降低数据治理的复杂度。



数据治理很重要的一个核心是数据标准的梳理与建设。通过瓴羊Dataphin,企业只需完成基础数据梳理,即可完成大部分数据治理工作。例如,在身份证数据治理中,企业仅需定义数据类型、分级标准及字段空值校验等规则,系统即可自动开展元数据监控,检验数据是否符合字符串类型、是否存在空值,安全权限是否合规。除元数据监控外,数据标准还能与数据质量、建模、研发相结合,使数据标准可以在数据全生命周期中得以不断流转。



周鑫提到,数据质量是AI成功的关键,据Gartner预测,到2025年,至少三分之二的生成式人工智能项目将因数据质量不足等问题在概念验证阶段被放弃。与此同时,AI同样是实现主动数据治理的重要工具,它可以让数据治理变得更加智能化和自动化,形成从数据发现、治理、评估与标准的完整闭环。



瓴羊Quick BI智能小D是AI+BI的标志性产品化成果,它承担着数据PD与数据架构师的角色,可以为用户业务问题提供直接的解决方案。以往,关键词搜索往往与实际业务问题相差千里,搜索“交易”得出的相似度匹配信息,并不能解决实际的业务问题。而利用智能小D,用户可直接提出“GMV提升20%,我能做什么?”或“哪些表适合用于客户分层?”等问题,无需自行拆解数据维度,即可获取直接的数据维度与策略指引。



除了数据发现与理解,瓴羊通过自动属性丰富功能,帮助企业一键生成目录、标签、描述等信息,将原本需要半小时完成的上架操作缩短至数十秒,效率提升百倍。此外,瓴羊的自动生成识别特征功能,让不会写、读不懂正则表达式的人也能轻松完成条件组合复杂的特征识别工作。迈过提效阶段后,Dataphin还将往更加自动化、智能化方向演进,探索自动生成质量规则、智能理解业务流程解决方案,让数据治理更加轻盈。




Dataphin的技术演进:打造开放兼容的数据建设与治理平台


阿里云智能集团瓴羊高级技术专家江岚指出,Dataphin在产品演进过程中,面临着“全域资产建设与治理”、“混合云架构”、“多引擎支持”和“资产消费”等挑战。为应对这些挑战,Dataphin成功探索出了一套优化数据建设与治理中台的技术实现路径。

在多引擎兼容方面,Dataphin通过多引擎SDK和插件的结合,充分融合了富客户端和轻客户端的优势,在接口层、插件层和依赖层构建了多引擎技术架构,实现了对多云环境的支持以及多种引擎的适配兼容。


在混合云架构方面,Dataphin基于Kubernetes集群部署了应用集群与默认调度集群,同时在IDC通过外部调度集群进行任务调度,广泛应用于数据集成、数据服务和资产采集等多个场景。


在资产消费场景中,Dataphin通过统一JDBC,实现了数据资产在权限管理、脱敏处理、审计等方面的统一管控。此外,Dataphin还与Quick BI进行了深度集成,大幅简化了用户的配置工作。目前,Dataphin已经在自助取数与分析、数据探查与分析、接口调用与应用等三种消费方式中得到了广泛应用,极大地提升了业务人员、数据分析师和开发人员的工作效率。


从数据资产建设到数据运营,雅戈尔的数据价值探索实践


雅戈尔集团大数据负责人竺显波表示,数字化建设有两个阶段,一个阶段是一切业务数据化、可视化,第二个阶段是一切数据业务化、价值化。数字化之所以经常被说成是“一把手工程”,正在于它要协同好公司的战略、业务、技术、治理与改革,是一个系统性的大工程。



雅戈尔的数据架构由以下三部分组成:数据源层、数据中台与数据应用。其中,数据中台和数据应用分别通过瓴羊Dataphin和Quick BI等数据产品,实现了工具与架构的全面升级,落地了多个数字化产品成果。例如,企业数据门户以销售、物流等类别划分,用户只需简单拖拉拽操作,即可快速生成所需报表;主题门户则根据品牌、大区管理人员、店长等特定身份进行分类,为不同用户精准聚合并高效查找所需数据提供了便利。


在数据中台建设方面,雅戈尔成功搭建了16个系统,整合了950多个数据表、400个指标和650个报表,提升了系统性能与架构效率。同时,雅戈尔实现了组织架构信息、商品信息、人员信息等核心数据的统一治理与贯通,消除了数据二义性。


在标准化治理的基础上,雅戈尔从数据组织、技术架构和流程管理三个层面全面优化,推动数据价值的深度挖掘与应用。以“平效”为例,数据团队基于“面积在300至1万平方米之间,面积越大,平效越高”的数据规律,验证了公司“开大店、关小店”战略的科学性和可行性,为企业决策提供了数据支撑。


随着AI与数据治理深度融合,更多行业将迎来数字化转型的新机遇。瓴羊将持续以数据标准为核心,打造开放兼容的数据建设与治理平台,推动企业开启更加高效、安全的数据治理新时代。


(如对瓴羊Dataphin数据治理感兴趣,欢迎扫码入群领取Dataphin白皮书)


image.png




Dataphin.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。


了解更多Dataphin智能建设与治理 >>

获取资料:Dataphin产品白皮书 >>

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
269 99
|
4月前
|
人工智能 自然语言处理 数据可视化
通义灵码保姆级教程:从数据读取、清洗、结合大模型分析、可视化、生成报告全链路
本课程通过通义灵码实现零代码数据分析全流程,涵盖数据读取、清洗、可视化、报告生成及内容仿写,无需编程基础,轻松掌握从CSV导入到PDF报告输出的实战技能。
|
4月前
|
存储 人工智能 文字识别
医疗病历结构化处理系统技术白皮书——基于多模态AI的医联体数据治理方案
本系统基于双端协同架构,集成移动端OCR识别与云端数据分析,实现医疗文档高效结构化处理。采用PaddleOCR轻量引擎与隐私计算技术,支持离线识别与敏感信息脱敏。后端构建分布式数据仓库与多租户机制,满足PB级存储与数据安全合规要求。实测OCR准确率达96.2%(印刷体)与88.7%(手写体),字段抽取F1值92.4%,显著提升病历处理效率与质量。
441 3
|
4月前
|
人工智能 供应链 数据挖掘
瓴羊入选中国信通院《AI Agent智能体产业图谱》
2025数据智能大会在京召开,中国信通院发布《AI Agent智能体产业图谱1.0》,瓴羊Quick BI凭借智能数据分析能力入选。该图谱系统梳理AI Agent产业生态,涵盖基础底座、平台、通用与行业智能体四大领域。Quick BI通过融合大模型技术,重构企业数据分析方式,实现从“被动响应”到“主动服务”的升级,广泛应用于供应链、零售、财务等多个场景。此次入选标志着瓴羊在数据分析智能体领域的创新成果获高度认可。作为阿里巴巴旗下数智服务品牌,瓴羊将持续推动企业智能化转型,释放数据价值,助力“人工智能+”深度发展。
|
6月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
302 17
|
26天前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
5月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
364 76
|
3月前
|
机器学习/深度学习 SQL 大数据
什么是数据集成?和数据融合有什么区别?
在大数据领域,“数据集成”与“数据融合”常被混淆。数据集成关注数据的物理集中,解决“数据从哪来”的问题;数据融合则侧重逻辑协同,解决“数据怎么用”的问题。两者相辅相成,集成是基础,融合是价值提升的关键。理解其差异,有助于企业释放数据潜力,避免“数据堆积”或“盲目融合”的误区,实现数据从成本到生产力的转变。
什么是数据集成?和数据融合有什么区别?