【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。

在这个AI智能化时代,每一比特的数据都蕴含着改变世界的潜能。

瓴羊「数据荟」数据Meet Up城市行系列活动为汇聚数据同行者,搭建开放交流的平台。在这里看见业内先进数据产品研究、分享成功企业经验,探索数据与企业应用的交融与创新,解锁数据未来的无限可能



第三期瓴羊数据Meetup 线上与大家见面,共同探讨AI时代的数据治理实践。


数据、算法与算力,被称为人工智能的三驾马车。在数据体量爆发性增长的当下,精耕细作的数据治理,或将成为企业赶上大模型风口的制胜关键。


瓴羊「数据荟」数据Meet Up第三站线上活动成功举办。来自中国信息通信研究院、阿里云智能集团、雅戈尔集团的业务主管、技术专家及大数据负责人,围绕“大模型时代的数据治理创新实践”主题,深入分享了AI与数据治理的深度融合、数据平台建设的最佳实践以及数据资产管理与运营的前沿见解。


大模型时代,数据治理四大趋势与三大堵点


中国信息通信研究院云计算与大数据研究所高级业务主管尹正指出,AI时代下的数据治理,将呈现出“全域数据治理”、“数据研发模式工程化、敏捷化”、“数据治理技术智能化”、“数据安全纵深化”四大趋势。


具体而言,全域数据治理将重点关注音视频、图片、文本等非结构化数据。在实践领域,中国移动、自动驾驶等企业已通过构建非结构化数据评价体系,关注合成数据技术,提升了数据集可信性,解决了“数据荒”难题。



在全域数据治理下,数据研发模式也随之发生变化,企业应打造面向AI与BI结合的数据工程“流水线”,以系统化方法提升效率、降低成本、保障质量、推动创新。同时,智能化数据治理将逐步取代传统劳动密集型模式,而AI驱动的数据安全技术与能力,将为解决数据安全关键问题、应对大模型安全挑战指明方向。



尽管趋势向好,但当前大模型发展仍面临质量、安全、伦理三大数据堵点,具体体现为:高质量数据集构建知易行难,安全与隐私泄露频发、数据伦理体系亟待完善。不过,面向AI的数据治理框架正在形成,人工智能数据治理的流程、方法、技术也在逐步完善。此外,依据DataOps理念构建面向人工智能的数据工程体系,为Al提供了敏捷高效、安全可信的数据供给,并进一步为企业人工智能长期平稳、良好、健康发展提供了保障。


以数据标准为抓手,让AI为数据治理提效


阿里云智能集团瓴羊高级技术专家周鑫指出,企业数据治理面临现状评估难、组织架构复杂、实施成本高、治理迭代难等多个难题,破解以上难题的最好方法,是找到核心抓手,降低数据治理的复杂度。



数据治理很重要的一个核心是数据标准的梳理与建设。通过瓴羊Dataphin,企业只需完成基础数据梳理,即可完成大部分数据治理工作。例如,在身份证数据治理中,企业仅需定义数据类型、分级标准及字段空值校验等规则,系统即可自动开展元数据监控,检验数据是否符合字符串类型、是否存在空值,安全权限是否合规。除元数据监控外,数据标准还能与数据质量、建模、研发相结合,使数据标准可以在数据全生命周期中得以不断流转。



周鑫提到,数据质量是AI成功的关键,据Gartner预测,到2025年,至少三分之二的生成式人工智能项目将因数据质量不足等问题在概念验证阶段被放弃。与此同时,AI同样是实现主动数据治理的重要工具,它可以让数据治理变得更加智能化和自动化,形成从数据发现、治理、评估与标准的完整闭环。



瓴羊Quick BI智能小D是AI+BI的标志性产品化成果,它承担着数据PD与数据架构师的角色,可以为用户业务问题提供直接的解决方案。以往,关键词搜索往往与实际业务问题相差千里,搜索“交易”得出的相似度匹配信息,并不能解决实际的业务问题。而利用智能小D,用户可直接提出“GMV提升20%,我能做什么?”或“哪些表适合用于客户分层?”等问题,无需自行拆解数据维度,即可获取直接的数据维度与策略指引。



除了数据发现与理解,瓴羊通过自动属性丰富功能,帮助企业一键生成目录、标签、描述等信息,将原本需要半小时完成的上架操作缩短至数十秒,效率提升百倍。此外,瓴羊的自动生成识别特征功能,让不会写、读不懂正则表达式的人也能轻松完成条件组合复杂的特征识别工作。迈过提效阶段后,Dataphin还将往更加自动化、智能化方向演进,探索自动生成质量规则、智能理解业务流程解决方案,让数据治理更加轻盈。




Dataphin的技术演进:打造开放兼容的数据建设与治理平台


阿里云智能集团瓴羊高级技术专家江岚指出,Dataphin在产品演进过程中,面临着“全域资产建设与治理”、“混合云架构”、“多引擎支持”和“资产消费”等挑战。为应对这些挑战,Dataphin成功探索出了一套优化数据建设与治理中台的技术实现路径。

在多引擎兼容方面,Dataphin通过多引擎SDK和插件的结合,充分融合了富客户端和轻客户端的优势,在接口层、插件层和依赖层构建了多引擎技术架构,实现了对多云环境的支持以及多种引擎的适配兼容。


在混合云架构方面,Dataphin基于Kubernetes集群部署了应用集群与默认调度集群,同时在IDC通过外部调度集群进行任务调度,广泛应用于数据集成、数据服务和资产采集等多个场景。


在资产消费场景中,Dataphin通过统一JDBC,实现了数据资产在权限管理、脱敏处理、审计等方面的统一管控。此外,Dataphin还与Quick BI进行了深度集成,大幅简化了用户的配置工作。目前,Dataphin已经在自助取数与分析、数据探查与分析、接口调用与应用等三种消费方式中得到了广泛应用,极大地提升了业务人员、数据分析师和开发人员的工作效率。


从数据资产建设到数据运营,雅戈尔的数据价值探索实践


雅戈尔集团大数据负责人竺显波表示,数字化建设有两个阶段,一个阶段是一切业务数据化、可视化,第二个阶段是一切数据业务化、价值化。数字化之所以经常被说成是“一把手工程”,正在于它要协同好公司的战略、业务、技术、治理与改革,是一个系统性的大工程。



雅戈尔的数据架构由以下三部分组成:数据源层、数据中台与数据应用。其中,数据中台和数据应用分别通过瓴羊Dataphin和Quick BI等数据产品,实现了工具与架构的全面升级,落地了多个数字化产品成果。例如,企业数据门户以销售、物流等类别划分,用户只需简单拖拉拽操作,即可快速生成所需报表;主题门户则根据品牌、大区管理人员、店长等特定身份进行分类,为不同用户精准聚合并高效查找所需数据提供了便利。


在数据中台建设方面,雅戈尔成功搭建了16个系统,整合了950多个数据表、400个指标和650个报表,提升了系统性能与架构效率。同时,雅戈尔实现了组织架构信息、商品信息、人员信息等核心数据的统一治理与贯通,消除了数据二义性。


在标准化治理的基础上,雅戈尔从数据组织、技术架构和流程管理三个层面全面优化,推动数据价值的深度挖掘与应用。以“平效”为例,数据团队基于“面积在300至1万平方米之间,面积越大,平效越高”的数据规律,验证了公司“开大店、关小店”战略的科学性和可行性,为企业决策提供了数据支撑。


随着AI与数据治理深度融合,更多行业将迎来数字化转型的新机遇。瓴羊将持续以数据标准为核心,打造开放兼容的数据建设与治理平台,推动企业开启更加高效、安全的数据治理新时代。


(如对瓴羊Dataphin数据治理感兴趣,欢迎扫码入群领取Dataphin白皮书)


image.png




Dataphin.png

Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。


了解更多Dataphin智能建设与治理 >>

获取资料:Dataphin产品白皮书 >>

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
9
10
0
337
分享
相关文章
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
79 19
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
73 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI Agent:构建以数据为中心的智能体
在过去一年里大模型领域主要有两大领域的热点,一个是 LLM,几乎每月速度革新,大家关心的是效果和成本。另一个是 AI Agent,大家尝试解决各个领域应用问题,大家关心的是场景和竞争力。下面我们重点分享一下 AI Agent 的趋势和实践。
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
文科生在AI大模型时代:以人文为翼,迎接新机遇
随着AI大模型的崛起,关于“文科无用论”的讨论再度兴起。然而,AI在内容创作中的优势并未使文科生陷入就业寒冬,反而带来了新机遇。AI大模型依赖高质量的人文训练语料,文科生可在模型训练、优化及新兴职业如AIGC内容官中发挥专长。掌握AI技能并通过GAI认证,文科生能在新时代绽放光彩。
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
1130 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
【AI落地应用实战】大模型加速器2.0:基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统
本文探讨了私有知识库问答系统的难点及解决方案,重点分析了企业知识管理中的痛点,如信息孤岛、知识传承依赖个人经验等问题。同时,介绍了IntFinQ这款知识管理工具的核心特点和实践体验,包括智能问答、深度概括与多维数据分析等功能。文章还详细描述了IntFinQ的本地化部署过程,展示了其从文档解析到知识应用的完整技术闭环,特别是自研TextIn ParseX引擎和ACGE模型的优势。最后总结了该工具对企业和开发者的价值,强调其在提升知识管理效率方面的潜力。

热门文章

最新文章