外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?

简介: 9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。

9月5日,在2024 Inclusion·外滩大会上,由蚂蚁集团、上海交通大学、复旦大学联合主办的“从DATA for AI到AI for DATA”见解论坛召开,产学研代表深入探讨了在AI时代数据价值的转变,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成参会,分享了数据技术的变化趋势及与AI技术的融合。

444.png

9月5日,2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛召开。

大模型拉动数据与AI全面对齐

数据一定程度上决定了智能的上限,这使得大模型的技术越要突破,数据技术越要与其“对齐”,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

在存储环节,中国工程院院士、清华大学计算机科学与技术系教授郑纬民表示,大模型生命周期的每一环节都与存储系统有关,在数据获取阶段,需要处理海量多模态小文件,在数据预处理时,则要频繁、随机小样本读取,训练时,检查点文件读写对存储系统提出新的需求,推理时,加载模型参数以及保存中间结果尤为关键,这些挑战也催生了新的技术方案诞生。

大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构EpochAI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。

昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成认为,模型结构还会继续升级,大模型目前推理能力不够等众多的遗留问题,最好的解决途径可能是用合成数据,但做法不同,不应是根据原来的数据合成新的数据,而是通过大模型之间相互的对话、讨论、评价,最后产生出更好、更高质量的数据,这些数据将会大大去提升大模型的效能。

基础数据库也在加强与AI的融合。国产分布式数据库OceanBaseCTO杨传辉介绍了如何通过一套系统同时支持SQL+AI,支持向量数据库,并通过AI技术
优化数据库开发和管理工具。

蚂蚁技术研究院院长陈文光提出,向AI“对齐”需要从底层系统角度出发,包括硬件的结构和对应的编程语言、编译系统等。他介绍了在人工智能、科学计算与大数据处理(FABS:FusedAI, BigData and Science)融合的计算模式思考。

探索AI时代的数据战略与实践

333.png

蚂蚁集团平台技术事业群副总裁骆骥展望新一代智能数据体系,他认为数据正在向价值中心转变。

从大数据时代到AI时代,数据体系正在从成本和效率中心向价值中心转变,蚂蚁集团平台技术事业群副总裁骆骥认为,在AI时代,数据资产本身的规模、多样性、品质等是决定智能化效果的关键因素。数据更加直接地影响到智能化应用的效果,这就意味着,从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

骆骥分享了基于蚂蚁集团业务场景下,AI时代的蚂蚁智能数据体系探索与实践。

他表示,在过去的两年里,蚂蚁集团一直在构建一个围绕融合数据湖、能提供各种数据驱动的智能化应用服务与能力的数据体系,其底层基于全模态存储与计算引擎,上层能支持丰富的智能化业务应用场景。

在底层,蚂蚁构建了行列混存,以及面向新搜索、新交互的向量数据库能力,并且为大模型训练打造了极致的全模态缓存加速的新型存储技术产品。

在核心的融合数据湖里,蚂蚁致力于将结构化数据、半结构化数据与非结构化数据充分融合。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,还重点关注统一元数据、支持三线一致和SingleSourceofTruth,以及特别针对非结构化数据的安全可信与品质保障能力等几大关键要素。

在上层的数据应用中,包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成)、全模态的数据研发和面向机器与智能体的新特征服务,以及围绕数据的分析与科学实验工程体系等。

“数据技术领域也正在飞奔进入一个全新的历史阶段。”骆骥说。

自媒体发文-底部引导图.PNG

相关文章
|
10天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
38 6
|
7天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
85 48
|
10天前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
3天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
3天前
|
人工智能 安全 搜索推荐
AI与能源管理:智能电网的未来
本文探讨了AI与智能电网的融合及其对能源管理的深远影响。智能电网利用先进的信息、通信和AI技术,实现电力的自主、智能化、高效管理。AI在精准预测电力需求、实时监测与故障诊断、智能能源调度、个性化能源服务和优化可再生能源利用等方面发挥关键作用,推动能源管理的高效、智能和可持续发展。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI与法律行业:智能法律咨询
在科技飞速发展的今天,人工智能(AI)正逐渐渗透到法律行业,特别是在智能法律咨询领域。本文探讨了AI在智能法律咨询中的应用现状、优势及挑战,并展望了其未来发展前景。AI技术通过大数据、自然语言处理等手段,提供高效、便捷、低成本且个性化的法律服务,但同时也面临数据隐私、法律伦理等问题。未来,AI将在技术升级、政策推动和融合创新中,为用户提供更加优质、便捷的法律服务。
|
11天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
|
6天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
11天前
|
存储 人工智能 文字识别
利用AI能力平台实现档案馆纸质文件的智能化数字处理
在传统档案馆中,纸质文件管理面临诸多挑战。AI能力平台利用OCR技术,通过图像扫描、预处理、边界检测、文字与图片分离、文字识别及结果存储等步骤,实现高效数字化转型,大幅提升档案处理效率和准确性。