外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?

简介: 9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。

9月5日,在2024 Inclusion·外滩大会上,由蚂蚁集团、上海交通大学、复旦大学联合主办的“从DATA for AI到AI for DATA”见解论坛召开,产学研代表深入探讨了在AI时代数据价值的转变,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成参会,分享了数据技术的变化趋势及与AI技术的融合。

444.png

9月5日,2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛召开。

大模型拉动数据与AI全面对齐

数据一定程度上决定了智能的上限,这使得大模型的技术越要突破,数据技术越要与其“对齐”,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

在存储环节,中国工程院院士、清华大学计算机科学与技术系教授郑纬民表示,大模型生命周期的每一环节都与存储系统有关,在数据获取阶段,需要处理海量多模态小文件,在数据预处理时,则要频繁、随机小样本读取,训练时,检查点文件读写对存储系统提出新的需求,推理时,加载模型参数以及保存中间结果尤为关键,这些挑战也催生了新的技术方案诞生。

大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构EpochAI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。

昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成认为,模型结构还会继续升级,大模型目前推理能力不够等众多的遗留问题,最好的解决途径可能是用合成数据,但做法不同,不应是根据原来的数据合成新的数据,而是通过大模型之间相互的对话、讨论、评价,最后产生出更好、更高质量的数据,这些数据将会大大去提升大模型的效能。

基础数据库也在加强与AI的融合。国产分布式数据库OceanBaseCTO杨传辉介绍了如何通过一套系统同时支持SQL+AI,支持向量数据库,并通过AI技术
优化数据库开发和管理工具。

蚂蚁技术研究院院长陈文光提出,向AI“对齐”需要从底层系统角度出发,包括硬件的结构和对应的编程语言、编译系统等。他介绍了在人工智能、科学计算与大数据处理(FABS:FusedAI, BigData and Science)融合的计算模式思考。

探索AI时代的数据战略与实践

333.png

蚂蚁集团平台技术事业群副总裁骆骥展望新一代智能数据体系,他认为数据正在向价值中心转变。

从大数据时代到AI时代,数据体系正在从成本和效率中心向价值中心转变,蚂蚁集团平台技术事业群副总裁骆骥认为,在AI时代,数据资产本身的规模、多样性、品质等是决定智能化效果的关键因素。数据更加直接地影响到智能化应用的效果,这就意味着,从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

骆骥分享了基于蚂蚁集团业务场景下,AI时代的蚂蚁智能数据体系探索与实践。

他表示,在过去的两年里,蚂蚁集团一直在构建一个围绕融合数据湖、能提供各种数据驱动的智能化应用服务与能力的数据体系,其底层基于全模态存储与计算引擎,上层能支持丰富的智能化业务应用场景。

在底层,蚂蚁构建了行列混存,以及面向新搜索、新交互的向量数据库能力,并且为大模型训练打造了极致的全模态缓存加速的新型存储技术产品。

在核心的融合数据湖里,蚂蚁致力于将结构化数据、半结构化数据与非结构化数据充分融合。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,还重点关注统一元数据、支持三线一致和SingleSourceofTruth,以及特别针对非结构化数据的安全可信与品质保障能力等几大关键要素。

在上层的数据应用中,包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成)、全模态的数据研发和面向机器与智能体的新特征服务,以及围绕数据的分析与科学实验工程体系等。

“数据技术领域也正在飞奔进入一个全新的历史阶段。”骆骥说。

自媒体发文-底部引导图.PNG

相关文章
|
15天前
|
数据采集 存储 人工智能
代理IP与AI自我进化:探索未来智能的新边界
在AI快速发展的今天,数据获取成为制约其进步的关键因素。代理IP技术通过匿名性和灵活性,帮助AI突破地域限制、绕过反爬虫机制,提升数据质量和模型训练效率,促进AI自我进化。本文通过实例和代码,探讨了代理IP在AI发展中的作用及潜在价值,强调了合理使用代理IP的重要性。
23 1
|
10天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
95 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
22天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
181 64
|
10天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
64 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
4天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
11天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
67 7
【AI系统】数据并行
|
2天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
29 13
|
28天前
|
人工智能 物联网 Shell
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
本文介绍了多个开源项目,涵盖了从量子计算错误纠正到视频生成和编辑的广泛应用领域。这些项目展示了AI技术在不同领域的创新和应用潜力。
157 10
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
|
26天前
|
人工智能 自然语言处理 前端开发
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
VideoChat 是一款智能音视频内容解读助手,支持批量上传音视频文件并自动转录为文字。通过 AI 技术,它能快速生成内容总结、详细解读和思维导图,并提供智能对话功能,帮助用户更高效地理解和分析音视频内容。
100 6
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
|
19天前
|
人工智能 JSON 自然语言处理
智能化AI工具-语言翻译与本地化
在全球化发展的背景下,语言翻译与本地化需求日益增长。无论是跨境电商、国际合作,还是本地化应用开发,都需要高效、准确的翻译解决方案。阿里云通义千问作为一款强大的大语言模型,不仅具备出色的自然语言理解能力,还能够在多语言翻译和本地化场景中发挥重要作用。本博客将详细介绍如何基于阿里云通义千问开发语言翻译与本地化工具,包括产品介绍、程序代码以及阿里云相关产品的具体使用流程。
53 10