外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?

简介: 9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。

9月5日,在2024 Inclusion·外滩大会上,由蚂蚁集团、上海交通大学、复旦大学联合主办的“从DATA for AI到AI for DATA”见解论坛召开,产学研代表深入探讨了在AI时代数据价值的转变,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成参会,分享了数据技术的变化趋势及与AI技术的融合。

444.png

9月5日,2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛召开。

大模型拉动数据与AI全面对齐

数据一定程度上决定了智能的上限,这使得大模型的技术越要突破,数据技术越要与其“对齐”,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

在存储环节,中国工程院院士、清华大学计算机科学与技术系教授郑纬民表示,大模型生命周期的每一环节都与存储系统有关,在数据获取阶段,需要处理海量多模态小文件,在数据预处理时,则要频繁、随机小样本读取,训练时,检查点文件读写对存储系统提出新的需求,推理时,加载模型参数以及保存中间结果尤为关键,这些挑战也催生了新的技术方案诞生。

大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构EpochAI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。

昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成认为,模型结构还会继续升级,大模型目前推理能力不够等众多的遗留问题,最好的解决途径可能是用合成数据,但做法不同,不应是根据原来的数据合成新的数据,而是通过大模型之间相互的对话、讨论、评价,最后产生出更好、更高质量的数据,这些数据将会大大去提升大模型的效能。

基础数据库也在加强与AI的融合。国产分布式数据库OceanBaseCTO杨传辉介绍了如何通过一套系统同时支持SQL+AI,支持向量数据库,并通过AI技术
优化数据库开发和管理工具。

蚂蚁技术研究院院长陈文光提出,向AI“对齐”需要从底层系统角度出发,包括硬件的结构和对应的编程语言、编译系统等。他介绍了在人工智能、科学计算与大数据处理(FABS:FusedAI, BigData and Science)融合的计算模式思考。

探索AI时代的数据战略与实践

333.png

蚂蚁集团平台技术事业群副总裁骆骥展望新一代智能数据体系,他认为数据正在向价值中心转变。

从大数据时代到AI时代,数据体系正在从成本和效率中心向价值中心转变,蚂蚁集团平台技术事业群副总裁骆骥认为,在AI时代,数据资产本身的规模、多样性、品质等是决定智能化效果的关键因素。数据更加直接地影响到智能化应用的效果,这就意味着,从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

骆骥分享了基于蚂蚁集团业务场景下,AI时代的蚂蚁智能数据体系探索与实践。

他表示,在过去的两年里,蚂蚁集团一直在构建一个围绕融合数据湖、能提供各种数据驱动的智能化应用服务与能力的数据体系,其底层基于全模态存储与计算引擎,上层能支持丰富的智能化业务应用场景。

在底层,蚂蚁构建了行列混存,以及面向新搜索、新交互的向量数据库能力,并且为大模型训练打造了极致的全模态缓存加速的新型存储技术产品。

在核心的融合数据湖里,蚂蚁致力于将结构化数据、半结构化数据与非结构化数据充分融合。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,还重点关注统一元数据、支持三线一致和SingleSourceofTruth,以及特别针对非结构化数据的安全可信与品质保障能力等几大关键要素。

在上层的数据应用中,包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成)、全模态的数据研发和面向机器与智能体的新特征服务,以及围绕数据的分析与科学实验工程体系等。

“数据技术领域也正在飞奔进入一个全新的历史阶段。”骆骥说。

自媒体发文-底部引导图.PNG

相关文章
|
6天前
|
传感器 人工智能 监控
AI与物联网的融合:开启智能化未来的新篇章
AI与物联网的融合:开启智能化未来的新篇章
154 96
|
9天前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
1天前
|
存储 人工智能 自然语言处理
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
AI Agent以自主性和智能化为核心,适合复杂任务的动态执行;而SaaS工具则注重服务的完整性和易用性,适合标准化业务需求。
27 14
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
|
1天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
48 31
|
7天前
|
机器学习/深度学习 人工智能 资源调度
基于AI的运维资源调度:效率与智能的双重提升
基于AI的运维资源调度:效率与智能的双重提升
71 16
基于AI的运维资源调度:效率与智能的双重提升
|
6天前
|
存储 人工智能 开发框架
Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统
Eliza 是一个开源的多代理模拟框架,支持多平台连接、多模型集成,能够快速构建智能、高效的AI系统。
72 8
Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统
|
1天前
|
人工智能 自然语言处理 监控
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
SaaS(软件即服务)结合AI(人工智能),正引领企业解决方案向智能化转型。SaaS+AI大幅提升了工作效率与决策质量。它能自动完成重复任务、简化设置流程、主动识别并解决潜在问题,还能根据用户需求提供个性化推荐和动态优化配置。
17 1
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
|
9天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
3天前
|
消息中间件 机器学习/深度学习 人工智能
AI赋能运维:实现运维任务的智能化自动分配
AI赋能运维:实现运维任务的智能化自动分配
49 23
|
13天前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
67 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期