多图,PolarDB 2026 开发者大会有感

简介: 解读阿里云PolarDB开发者大会上数据库的AI原生演进:从数据形态融合、模型算子化到湖库一体架构,PolarDB通过四大支柱构建面向智能体时代的统一数据基座,推动数据库向“AI in SQL”与自主治理的深度变革。

作者介绍:韩锋,公众号《韩锋频道》主理人。

近期,年度阿里云PolarDB开发者大会如期召开,阿里云正式发布了PolarDB系列全新AI能力,标志着云原生数据库向“AI原生”的重大演进。本文通过一系列现场照片,谈谈作者的一点感受。

1. 发展趋势篇

1).AI 时代,数据有什么不同

随着AI时代的到来,原有数据的产生方式发生了很大的变化。过去是由人或系统产生数据,未来将更多是由智能体来产生。在AI时代,随着智能体的普及和模型交互频次的爆炸式增长,数据量正经历前所未有的膨胀。这背后主要由两大趋势驱动:一方面是智能体自主运行产生海量交互数据:每个智能体都能主动感知、决策并采取行动,在完成任务过程中持续与环境、其他智能体及人类进行高频交互。每一次决策、每次工具调用都会生成结构化的动作记录、状态变更与结果数据,形成庞大、连续、细粒度的行为轨迹流;而是大语言模型处理推高Token级数据总量:模型输入与输出的基本单位Token数量急剧增加。无论是复杂任务拆解、多轮对话思考,还是代码生成与调试,每个环节都涉及数万甚至百万Token的吞吐。

这些非结构化的自然语言、代码与中间过程数据,构成了数据增长的主体。这些新生的、高价值的、时序化的交互与思考数据,正在推动数据基础设施从“静态存储”向“实时、可迭代的认知数据湖”演进,为模型持续学习和系统优化提供了新的燃料。

2).AI 时代,对数据库有何要求

在Agentic AI时代,智能体的自主决策与高频交互对底层数据系统提出了革命性需求。PolarDB开发者大会提出数据库需具备六大核心能力以应对这一挑战:首先是联邦式实时数据访问能力,实现跨多源异构数据的毫秒级统一响应;其次需具备原生向量与多模态语义处理能力,直接理解非结构化信息;事务与分析一体化的实时决策能力则支撑智能体在交互中同步完成计算与行动。此外,数据库需实现自主运维与智能管理,依托AI实现自优化与自修复;通过事件驱动与流式响应能力即时处理环境信号;并构建零信任与自主数据治理框架,确保海量交互数据的安全合规。这六大能力共同构成了智能体时代坚实的数据基座。

3).为什么将 AI 能力要植入数据库中

如图所示,当前AI与数据库的融合存在两种典型模式。左图所示“外挂式”架构,需先将数据移出数据库至外部AI服务处理,这带来了数据移动成本高、安全风险增加、架构碎片化及存在语义鸿沟等挑战。右图展示的“AI原生数据库”架构,则将智能直接嵌入数据所在的数据库内核,实现从“支持应用”到“一体化智能治理”的转变。强烈推荐将AI能力植入数据库。这种模式的核心是“将AI带给数据,而非将数据移向AI”。它通过在数据库内部原生集成向量计算、模型推理与统一数据治理能力,从根本上避免了数据搬迁,保障了安全与隐私,并消除了系统复杂性,为大规模智能体应用提供了高性能、低延迟且一体化治理的数据基座。这是面向AI时代的一次彻底架构重构。做到如下图所示,将大模型交互做到数据最深处。

4).“AIDB” 发展经历了哪几个阶段

数据库与人工智能的结合,还在不断探索之中。仅仅是从厂商宣传,大家都能听到AI-Ready、AI-Native等。此次大会上,PolarDB也谈到其演进多个阶段,那么如何来理解呢?

AI-Ready 指数据库已具备支持AI应用运行的基础能力,例如能够高效存储、管理多模态数据,并支持向量检索等AI操作。它像一个“功能完善的工具箱”,AI应用可以方便地取用其中的数据与工具,但AI计算本身仍主要在数据库外部完成。这是一种“外挂式”的集成。而 AI-Native 则是一次架构层面的深度重构,意味着AI能力已成为数据库的“原生血液”。通过模型算子化等技术,大模型的交互直接在数据存储层发生,数据库不仅能提供数据,更能直接驱动智能推理与决策,实现了数据处理与AI计算的深度融合。

上图展示了阿里云PolarDB在AI时代背景下的战略演进与技术升级路径。演进被划分为三个阶段:

  • Cloud-Native 阶段 (2017-2022):完成了以存储计算分离、秒级弹性为核心的云原生基础架构建设。
  • AI-Ready 阶段 (2022-2025):聚焦于融合多模态数据、集成RAG与AI算子,为AI应用提供“准备就绪”的数据平台支持。
  • AI-Native 阶段 (持续演进中):标志着架构的根本性转变,其核心是实现湖库一体化、AI推理引擎融合、Agent自动化与智能治理,将AI能力深度、无缝地植入数据库内核,从“支持AI应用”转变为“数据库自身就是智能引擎”,从而直接驱动业务价值释放。

正如来自IDC分析师的报告,AI 与数据库正在融合,而两者的融合看起来正是一场双向奔赴的过程。

2. 产品技术篇

1).架构:融合成为必然

在AI时代,数据与智能的深度融合成为必然。上图所示的PolarDB AI融合架构,正是应对这一趋势的集中体现。其“融合”需求根植于多个核心层面:首先,是数据形态的融合。从结构化、半结构化到非结构化(文本、图片、视频),AI需要统一处理一切数据形态。其次,是计算与引擎的融合。单一的SQL处理已不够,必须整合向量、全文、图、时序等多种计算引擎,并将AI模型算子与CPU/GPU统一资源池深度结合,实现推理与查询的“一站式”处理。最终,是存储与服务的融合。通过湖库一体化存储,在保证高弹性、高可用的云原生优势之上,将数据集管理、特征缓存、模型服务与底层存储无缝对接,消除数据迁移与系统隔阂,为上层AI应用与Agent提供极致效率与一体化体验。从某种意义上,实现上述能力数据库也被重新“定义”,从数据库进化为数据底座。

2).技术:多种亮点,打下基础

夯实底座,湖库一体

这张图展示了阿里云PolarDB为支持AI时代Agent应用而设计的多模态湖库一体化存储架构。其核心是通过统一的存储底座,解决多源、多态数据高效接入与管理的问题。架构自左向右清晰展示了数据处理的完整链路:左侧,多种数据源(结构化、半结构化、图片、时序、文档)通过实时、批处理等方式写入;中部,是核心的湖库一体化存储层。它基于PolarFS2.0构建,并整合AliMemory、AliSCM、AliFlash等多级存储介质,实现对冷、温、热等不同时效性数据的统一、高性能管理,形成一个统一的多模态AI数据湖;右侧,存储层之上无缝对接模型服务与AI平台(如阿里云百炼、PAI-EAS),使处理后的数据能被AI应用与Agent直接、高效地消费。该架构的核心价值在于将数据的“存、管、用”在统一平台上深度融合,为智能体提供了高质量、易获取的“数据燃料”,是支撑Agent-Native应用的关键基础设施。

打通关联,元数据先行

以泛元数据统一管理为核心,打通多模态数据链路。其架构精髓在于“元数据先行”。首先是统一纳管:通过内置的元数据服务,将来自结构化、半结构化、非结构化数据源的基础元数据、向量、特征标签等进行一体化登记与治理,形成全局数据地图。次之是能力下沉:将chunking、embedding、tagging等AI预处理能力以SQL函数形式内置到存储层,在数据接入时即可自动完成智能处理,生成“AI就绪”的丰富元数据。再之是无缝同步:通过Zero-ETL服务自动维护增量数据同步,确保元数据与底层对象存储(PolarStore/OSS)中数据的一致性,为上层Spark、Flink等计算引擎提供统一、实时、高维的数据视图。这一设计真正实现了“打通数据,智能先行”,让数据从接入起就携带智能,为高效的多模态融合检索与AI应用奠定了坚实基础。

✦ 扩展算力,模型算子化

“模型算子化” 是将复杂的AI模型(如大语言模型)封装成一个可以在数据库执行引擎中直接调用的、与SQL查询计划无缝融合的高性能运算单元。其核心革新在于将AI推理从应用层“下推”到数据存储与计算层,实现两大根本性转变:

  • 计算范式融合:传统“外挂式”AI需先将数据搬出处理,导致冗余、延迟与风险。模型算子化则将AI推理变为数据库执行器中的一个标准算子(如同JOINWHERE),在查询计划中与过滤、聚合等操作一并优化执行,实现了库内原位计算。
  • 资源与能力一体化:它基于统一的融合算力池(CPU/GPU/内存),让数据、模型与算力在数据库内核高效协同,并通过扩展SQL语法(如AI_SEARCH())让开发者能像使用普通SQL函数一样直接调用大模型能力,真正做到了“AI in SQL”,是构建高性能、高安全、易开发的AI原生数据库的核心技术路径。

面向Agent,重新定义

PolarDB为应对面向Agent开发这一变革所做的“重新定义”。其核心理念是面向AI原生应用(特别是Agent)进行深度重构。PolarDB不再仅仅是存储数据的“硬盘”,而是通过构建长记忆管理框架,为AI智能体提供结构化的记忆存储、检索与演进能力,使其能持续学习和积累经验。同时,通过集成向量、全文、图等多模索引,数据库本身能直接理解与处理多模态信息。结合Supabase Serverless提供的开箱即用的后端服务(如函数、认证、文件),PolarDB将自身重新定位为“一站式AI应用数据智能平台”,让开发者能聚焦于Agent逻辑本身,极大简化了AI原生应用的构建、部署与运维。

软硬结合,持续创新

PolarDB通过软硬结合的深度协同创新,突破了云原生数据库的性能与规模瓶颈。其核心在于引入CXL技术,构建了全新的内存与算力架构。在硬件层面,PolarDB利用CXL Switch实现了跨节点的内存与GPU显存资源池化。这打破了传统单机内存/显存的容量限制,让多个计算节点(CPU/GPU)能够像访问本地资源一样,高速、低延迟地共享一个巨大的、统一的内存池。结合Smart SSD 2.0等自研硬件,实现了存储与计算的协同加速。在软件层面,数据库内核与操作系统深度优化,紧密适配CXL池化内存的管理与调度机制,为AI时代的高并发、低时延、海量内存需求提供了坚实的底层支撑。

此外,此次大会上阿里云与沃趣科技联合发布了PolarDB边缘节点一体机,标志着云原生数据库能力首次以“All In Box”的软硬件一体形态完整延伸至企业本地数据中心与边缘场景。这款产品精准解决了金融、政企等关键行业长期面临的困境:既希望获得公有云数据库的先进技术、弹性体验与智能化能力,又必须因数据主权、安全合规或极端性能要求将数据留存本地。它通过“去SAN”架构,搭载自研的QLink极速块存储与QDFS文件系统,提供超越传统架构五倍的I/O性能,确保数据高可靠。同时,产品具备原生HTAP能力与AI Ready特性,为企业构建了一个极致性能、可靠且面向未来的智能数据底座,真正实现了“将云数据库带回家”的愿景。

3).产品:AI 数据库,四大支柱

从产品层面来看,PolarDB AI 原生数据库通过四大支柱(产品)能力来支持AI。

其一是PolarDB Lakebase,其核心在于打破结构化与非结构化数据之间的壁垒,将文本、音频、视频与元数据进行融合处理,构建统一的数据基础。在此之上,它原生支持多模态数据的向量化嵌入,为AI语义理解与检索提供直接支持。通过采用“读时模式”,它摒弃了传统数据库僵化的预定义结构,仅在数据被访问时进行解析,极大增强了处理非结构化数据的灵活性。最后,其底层针对海量数据设计的高效存储与缓存架构,确保了多模态数据的高性能访问与计算效率,从而为上层AI应用提供了坚实、灵活且高性能的数据基座。

其二是Polar Search,其核心技术创新在于实现了 搜索即SQL” 的统一范式:开发者可通过单个SQL查询,无缝融合向量语义搜索、全文检索及常规条件过滤,彻底告别过去多系统拼接的复杂架构。同时,它深度集成检索增强生成(RAG) 工作流,通过向大语言模型提供实时、准确的数据来消除幻觉,实现可信的智能问答与分析。在底层,它支持向量、图、全文等多种索引,并配备智能的索引优化算法,能根据不同查询模式自动选择最优路径,从而为AI原生应用提供了强大、易用且高性能的智能数据检索基座。

其三是深度AI集成,PolarDB通过 “Model as an Operator” 技术,将复杂的AI模型训练与推理过程简化为数据库内部的标准化操作,赋能企业实现智能决策。通过内置BST(行为序列转换)等十余种算法,为数据科学家提供了从数据特征处理、模型创建、评估到推理的全流程闭环工具,并能将模型作为SQL算子直接调用,实现业务与AI的深度集成。

其四是PolarDB AI 助手,引领数据库进入“AI驱动自治操作”的新阶段。其四大核心能力包括:自动调优,AI实时分析查询模式,自动优化索引;机器学习驱动的查询优化,基于历史性能动态选择最优执行计划;自预测扩展,通过算法预测负载趋势,提前弹性伸缩资源;自愈基础设施,实时监控并自动修复潜在故障,确保持续稳定和高性能。这标志着数据库运维从“手动管理”转向“AI自主治理”,极大降低了运维复杂性,为开发者提供了更智能、更可靠的数据服务底座。

相关文章
|
9天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
3天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
1447 4
|
10天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
1627 17
|
9天前
|
人工智能 JavaScript 前端开发
【2026最新最全】一篇文章带你学会Cursor编程工具
本文介绍了Cursor的下载安装、账号注册、汉化设置、核心模式(Agent、Plan、Debug、Ask)及高阶功能,如@引用、@Doc文档库、@Browser自动化和Rules规则配置,助力开发者高效使用AI编程工具。
1257 5
|
10天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
12天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
1275 12
|
7天前
|
云安全 安全
免费+限量+领云小宝周边!「阿里云2026云上安全健康体检」火热进行中!
诚邀您进行年度自检,发现潜在风险,守护云上业务连续稳健运行
1177 2
|
13天前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
996 93
|
8天前
|
人工智能 JSON 自然语言处理
【2026最新最全】一篇文章带你学会Qoder编辑器
Qoder是一款面向程序员的AI编程助手,集智能补全、对话式编程、项目级理解、任务模式与规则驱动于一体,支持模型分级选择与CLI命令行操作,可自动生成文档、优化提示词,提升开发效率。
774 8
【2026最新最全】一篇文章带你学会Qoder编辑器

热门文章

最新文章