媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
简介: 在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。

文章转载自:CSDN

编辑:宋慧

在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。


那么,“Data+AI” 对于数据处理究竟意味着什么?从字面意义来理解,Data+AI是指将数据和人工智能结合起来,支持数据从收集、准备到模型开发、部署、迭代、监控的全流程。与传统数据管理模式相比,Data+AI更侧重AI原生化、一体化、多模化等理念。


1.2.jpg

阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人 周文超


从数据工程与业务实践的角度来看,由离线数据处理到实时数据处理,再到今天的Data+AI时代,数据处理的底层逻辑到底发生了怎样的变化?为何多模处理能力变得越来越重要?我们邀请了在学术界和产业界均有丰富经验的周文超博士,他现在是阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人。周文超博士从数据管理平台变化角度出发,结合阿里云DMS+X底层技术构建路径,深入分析Data+AI智能平台构建的现状与未来。他认为,今天的数据处理正在向多模融合方向发展,一站式的多模处理能力将是未来数据管理的标配。


1、智能升级加速,数据管理平台机遇与挑战并存

生成式AI重塑一切,很多工作的生产效率得到了极大提升,当AI内容生产和代码生成表现出接近甚至赶超人类的能力时,原有的数据管理模式也面临着巨大变革。与过去相比,今天的数据处理在数据量、数据类型、处理深度,以及与AI计算的融合等方面,都发生了显著的变化。这些变化不仅提高了数据处理的效率和准确性,还为AI的创新发展提供了有力的支持。


生成式AI虽然带来了前所未有的机遇,让企业在流程化、个性化服务创新过程中找到新的路径,但也存在着诸多挑战。面对Data+AI融合趋势的数据处理难点,周文超博士概括了三点:第一,数据的多模态化;第二,算力的多元融合;第三,数据处理的实时性。


数据的多模态:数据类型不再局限于传统的结构化数据,而是包括了图片、文档、图、时序、交易等多种模态的数据,比如:IoT设备数据、车机图像数据等,这些多模数据是数据处理和分析的一大挑战。


算力的多元融合:算力也朝着多模态和异构方向发展。过去,无论是在操作系统、数据库、离线数据处理还是实时数据处理中,主要关注的是以CPU为核心的算力。然而,随着大模型的出现,GPU、FPGA、ASIC等硬件逐渐加入到算力矩阵中。特别是GPU,原本用于图形加速和比特币等领域,现在因其能处理更多向量数据,并且可用于矩阵乘法,在算力领域扮演着越来越重要的角色。另外,如何在多样化的算力硬件上合理分配计算任务,以及如何更好地调度和结合不同的异构算力,成为Data+AI领域需要攻克的另一个重要挑战。


数据处理的实时性:实时性也是数据处理领域的一个难点。从最初的离线数据处理,到现今的实时数据处理,我们见证了数据处理走向实时化的过程。过去,数据主要以批次形式处理,一天或一周进行一次分析或训练。后来随着实时分析场景的增加,需要分钟级甚至秒级的数据处理能力,例如:在数据监控平台上,用户希望每秒或每分钟都在更新数据,以便实时了解当前情况。同理,Data+AI也是相同的逻辑。如果几个月才能进行一次训练,那么最近的数据将如何处理?因此,数据管理平台对实时数据的处理,也成为企业必须要面对的一个重要课题。


只有解决了上述问题,Data+AI的落地场景才会变得更加丰富,数据驱动企业智能化升级才会成为可能。


2、阿里云DMS+X一站式数据管理平台设计原理


准确来讲,Data+AI所有数据处理的背后主要源于三个核心要素,即数据、模型与算法、算力,正是这“三驾马车”成为数据管理智能平台能否提升业务效率的关键。


换言之,真正满足用户需求的Data+AI智能平台具有明显的Data Gravity(数据重力)倾向。如何理解Data Gravity概念?用一句话概括,就是让更多的模型、算法和算力向数据靠近,而不是来回迁移数据。因为,搬数据这件事,成本高昂,不能再像二十年前一样,把不同数据进行聚拢,再进行数据下发。现在,基本都是近存计算、存内计算,计算向存储靠近,向数据偏移。


此种背景下,阿里云瑶池数据库推出的Data+AI一站式多模数据管理平台做出几个重要改变:一、是一体化,打破数据生态和部署域的壁垒;二、让数据价值获取的路径变短。


所谓“一体化”,是指为用户打造一个统一的数据管理与开发平台,以优化数据资产的可见性和利用效率。首先,通过一个集中化的界面,让用户能够清晰地查看所有分散在不同来源(如OLTP数据库、OLAP数据库、云存储及自有IDC等)的数据资产,从而更有效地管理数据并控制存储成本,同时获得全局性的数据概览,这一理念体现在阿里云在DMS+X平台中提出的OneMeta+OneOps概念上。其中,OneMeta实现了数据资产的统一元数据管理,包括数据的来源、表结构等关键信息;而OneOps强调了开发平台的统一性,支持从离线到在线、从OLAP到Spark再到AI等多种数据处理场景。通过OneOps概念,DMS+X整合了数据操作、开发运维以及针对大型语言模型等操作,形成一个统一的操作平台,让用户能够在这个平台上完成所有与数据相关的操作,从数据清洗、编排到调用AI模型,从而缩短数据价值获取的路径,使数据价值的挖掘变得更加简单和高效。


值得一提的是,不同数据生态的打通也是DMS+X一大亮点。众所周知,OLTP数据库和OLAP数据库本身数据存储和处理形式不同,中间免不了要进行复杂的ETL转换。秉承Zero-ETL理念,DMS+X在数据转换通路上做了很多工作,让用户无需通过物理复制就能在无感知状态中将ETL效率提升5-10倍。


与此同时,让数据价值它的获取路径变得短,或者说让用户获取价值更简单,也是DMS+X智能平台提供的一个重要价值。为了将数据适配到AI处理的需求,DMS+X还进行了数据的AI ready化处理,如向量化等,使数据更易于被大型语言模型等AI技术理解和处理。此外,DMS+X还提供了Notebook、任务编排、以及结合百炼等智能开发平台的一系列功能,帮助用户更容易地生成带有业务属性的数据处理流程,进一步提升数据价值的挖掘效率。


从目前应用现状来看,阿里云DMS+X的用户主要是互联网、零售、游戏以及泛娱乐领域,这些领域的企业本身就有核心的数据资产,希望通过数据处理能力的提升拓展AI边界,构建AI原生能力,进而实现数据资产的价值最大化。大体来看,企业智能化升级还处于刚刚起步的阶段,未来随着Data+AI融合速度的加快,其他传统领域也一定会全面跟进。


当然,部署Data+AI融合战略的企业不只阿里云一家。与同类竞品相比,阿里云“Data+AI”驱动的DMS+X一站式多模数据管理平台之所以成为各行各业实现数据价值新底座,是“厚积薄发”的结果。比如:生成式AI强调的三层架构(底层基础设施层、中间模型层以及上层应用),阿里云很早就已提出IaaS+PaaS+MaaS全栈产品矩阵。过去几年,不管是IaaS(计算、存储、网络安全)、PaaS(中间件,数据库,计算平台),还是MaaS(通义系大模型),都已做到业内领先。


具体到数据库,经过十余年的应用实践以及技术迭代,阿里云瑶池拥有业界最全面的数据库产品布局,涵盖云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库Lindorm等多款明星产品,可满足用户不同业务需要。技术方面,瑶池旗下的自研数据库拥有三层解耦、多主多写、HTAP、Serverless等全球首创或业内领先的创新能力。其中,PolarDB已完成全球首个大规模商用、基于共享存储的云原生多主数据库实践,并凭此成功摘得了中国首个ACM SIGMODIEEE ICDE的工业赛道“最佳论文奖”。


3、未来:AI就绪,迎接Gen AI时代


尽管在底层技术平台支撑上,人类已经做好了AI就绪的准备,但距离真正的Gen AI时代到来,还有一段距离。周文超博士总结认为,大模型应用层将在未来占据主导地位,尤其是模型的推理应用,其价值将远超训练过程。在此背景下,阿里云瑶池数据库DMS+X发展规划也会变得更加清晰,将聚焦于支持更宏大的推理场景,通过提升用户体验和性价比来推动技术进步。


具体而言,DMS+X将致力于让用户在使用过程中更加便捷、高效,并通过资源混部、垂直领域数据的存储与计算优化等手段,进一步提升资源使用效率。同时,还会更积极地探索如何更高效地使用CPU、GPU、FPGA等算力资源,以期在未来技术落地中发挥重要作用。这些努力不仅体现了阿里云瑶池数据库对未来技术趋势的深刻洞察,也彰显了企业在推动AI技术发展方面的坚定决心和不懈努力。


而从技术人生的视角来看,以周文超博士为代表的研发团队,正以长期主义心态,将战略愿景转化为实际行动,致力于为用户带来更高效、更便捷的智能数据平台体验,推动着AI技术的持续进步和应用的快速拓展。


受访人简介:

周文超,阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人,负责云原生数据仓库、数据库工具与管控的研发以及数据库系统与智能方向科研。专注于建设一体化Data+AI数据管理平台,支持日益丰富的数据计算需求和更趋异构化的底层架构,利用资源云化提升智能计算效能。

清华大学计算机系本科,宾夕法尼亚大学计算机与信息科学博士,国家级领军人才,浙江省顶尖人才。毕业后于美国乔治城大学计算机系任教,后升任终身教授。至今在一流国际学术会议与期刊上发表论文70余篇。主要研究方向是计算机系统的设计和实现,涵盖数据库、分布式系统、计算机网络和系统安全等方向。曾获多项重要奖项,包括美国基金委NSF CAREER Award(杰出教授奖),ACM SIGMOD最佳博士论文奖,以及多个学术会议的最佳论文、最佳系统演示奖等。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
23天前
|
数据采集 人工智能 自然语言处理
Riona-AI-Agent:自媒体 AI 代理!自动点赞、评论、个性化内容生成和发布等交互任务
Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具,支持 Instagram、Twitter 等平台的自动化交互,生成高质量内容,提升社交媒体管理效率。
118 13
Riona-AI-Agent:自媒体 AI 代理!自动点赞、评论、个性化内容生成和发布等交互任务
|
26天前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
105 35
|
12天前
|
人工智能 自然语言处理 算法
“破冰”探索两周年,AI和媒体碰撞出了什么火花?
2022年末,大模型浪潮席卷新闻媒体行业,引发内容生产方式的深刻变革。2023年1月,传播大脑科技公司在杭州成立,成为浙江新闻传媒领域的重要探索。两年后,大模型技术进一步重构新闻生产和分发逻辑,传播大脑通过整合资源、打破壁垒,推出了国内首个媒体垂类大模型,并在全国范围内推广“浙江模式”,助力多省份媒体融合进程。2025年初,传播大脑在智能化办公、内容创作和形式创新等方面取得显著成果,为媒体行业的未来提供了新的解决方案和启示。
81 14
|
21天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
120 21
|
12天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
81 11
|
14天前
|
SQL 人工智能 关系型数据库
【PG锦囊】阿里云 RDS PostgreSQL 版插件—AI 插件(rds_ai)
本文介绍了AI 插件(rds_ai)的核心优势、适用场景等,帮助您更好地了解 rds_ai 插件。想了解更多 RDS 插件信息和讨论交流,欢迎加入 RDS PG 插件用户专项服务群(103525002795)
|
22天前
|
人工智能 供应链 安全
阿里云 Confidential AI 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践,由阿里云飞天实验室操作系统安全团队工程师张佳分享。主要分为三个部分: 1. Confidential AI 技术背景与挑战 2. Confidential AI 技术架构与应用场景 3. Confidential AI 技术实践与未来展望
|
22天前
|
人工智能 Java API
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
本次分享的主题是阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手,由阿里云两位工程师分享。
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
|
24天前
|
移动开发 监控 关系型数据库
使用云数据库RDS和低代码开发平台“魔笔”,高效构建门户网站,完成任务领智能台灯!
使用云数据库RDS和低代码开发平台“魔笔”,高效构建门户网站,完成任务领智能台灯!
|
23天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。

热门文章

最新文章