云栖热词:AI 原生

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
云原生网关 MSE Higress,422元/月
可观测监控 Prometheus 版,每月50GB免费额度
简介: 阿里云智能资深技术专家简志在“云栖大会- AI 基础设施进化论坛”分享了团队的实践感悟,包括从云原生到 AI 原生的演进路线,AI 原生所包含的关键要素,以及未来的发展方向,希望对参与 AI 建设的所有同行者们有所启发。

AI 原生不再是一个新的概念,而是企业在业务落地实践过程中已经形成的共识。不论是技术团队还是业务部门,都认同 AI 原生已经成为了应用架构的新范式。但是,围绕 AI 原生究竟涵盖哪些核心要素,因岗位视角不同、落地阶段不同、应用场景不同,仍有不同的理解:有强调模型和数据的,有更关注上下文工程与工具调用的,也有聚焦可观测、安全与治理的。

ee5a430026d5f1b65092be239ad6805c.png

今天,阿里云智能资深技术专家简志在“云栖大会- AI 基础设施进化论坛”分享了团队的实践感悟,包括从云原生到 AI 原生的演进路线,AI 原生所包含的关键要素,以及未来的发展方向,希望对参与 AI 建设的所有同行者们有所启发。

预告:9 月 25 日(周四),D3-2,AI 原生应用架构论坛,将发布《AI 原生应用架构白皮书》,帮助大家系统、全面了解 AI 原生应用的开发、测试、上线和运维的完整应用生命周期,并辅以实操展示关键功能的实现。


01 云原生到 AI 原生的演进路线

1759037465444_5EF94007-17B3-4cb8-8CC9-6E83225EB620.png

AI 原生能带来效率和提升和智能的释放。


用架构大致经历了四个阶段:

  • 第一阶段,应用以单体软件形态运行在个人 PC 上,典型代表是 Windows 95 生态,操作系统的普及直接催生了大规模的本地应用;
  • 第二阶段,随着企业数字化系统逐步成型,应用形态从单机转向服务端,用户通过客户端或浏览器访问,实现了资源与功能的集中化和用户使用的平权化;
  • 第三阶段,云计算与云原生基础设施兴起,开发者不再需要关注底层部署和运维,应用交付模式演变为按需弹性、持续集成,开发人员可以专注在业务逻辑本身;
  • 第四阶段,2025 年开始,低门槛的泛开发群体正在崛起,他们将依托低代码、智能体和 AI 原生能力,通过快速原型与迭代验证,实现应用的快速上线与规模化创新。

1759037503580_E2299393-24A1-4b88-85C7-F501EE5AB984.png

AI 驱动的应用与传统应用存在着本质的区别。传统应用在构建完成后,其业务逻辑以代码形式固化,行为可预测、确定。而 AI 应用则不同,它能够调用外部工具、理解上下文,并与大模型进行交互,因而具备动态决策与自适应能力,呈现出“活的应用”的特征。正是这种“活性”,对基础设施提出了新的要求:应用活动范围显著扩大,调用链条更复杂,企业必须重新思考算力、存储、接口、网络、安全与治理的边界。同时,AI 的概率性本质与企业对稳定性、合规性和可审计性的要求之间,形成了天然矛盾。


在落地层面,企业在部署 AI 应用时面临两大挑战:


  • 第一,如何在满足 AI 应用灵活性与探索性的同时,确保系统运行的稳定性、合规性和可追溯性,避免因黑箱和不确定性引发生产风险;
  • 第二,如何在已有数字化基础设施之上快速叠加 AI 能力,利用存量接口和系统资产实现平滑升级,而不是推倒重来。这意味着,企业迈向 AI 化的正确路径,应是基于现有系统架构的渐进式升级,通过网关、运行时、消息中间件和可观测体系的增强,加速进入 AI 时代,而非进行高风险的全盘重构。


02 AI 原生的关键要素


我们提炼了 AI 框架、AI 运行时、AI 网关、AI MQ、AI 可观测、Auto Memory、AI DevOps+Coding+Operation 这 8 大关键要素。这些要素对大模型输出结果的可靠性、原型验证(PoC)到生产部署的调优效率,以及上线后的推理速度、问题排查困难、安全风险和资源成本,都会有所助益。


AI 原生应用方案:Function AI

1759037544811_2E94E7EF-90AF-4be7-B22E-8E7408F829CF.png

应用架构是指导如何系统性地构建应用。因此我们提炼的这个 AI 原生的应用架构图,把 8 大关键要素串联了起来,提供一套包含运行时、网关、消息队列与可观测能力的完整技术栈,非单一产品而是组件化方案:Function AI。企业不必从零组装,而是可以基于方案缩短从 PoC 到生产的周期。该方案包括:


  • 运行时:基于函数计算(Function Compute),支持按需调用、秒级计费,具备百万级函数注册与十万并发处理能力。
  • AI 网关:专为AI场景设计,屏蔽大小模型调用的不确定性,统一接口格式,集成安全防护并兼容HTTP存量业务。
  • 消息队列(MQ):支持异步处理、优先级调度与 IP 级消费控制,提升系统稳定性与吞吐率。


接下去我们将对该方案的核心能力,即 AI 原生的 8 大关键要素进行展开。


Agent 框架:释放 AI 研发效能

1759037572615_BDBC5357-0D29-432e-A161-AF3C0308EBB2.png

针对中国主流的 Java 开发者群体,我们重磅发布 AgentScope Java 版开发框架。该框架深度兼容 Spring 生态,支持零代码、低代码与全代码三种开发模式,满足从入门开发者到资深工程师的不同需求。框架内置了丰富的示例与模板,开发者可以基于现有 Spring 工程快速集成智能体能力,并实现与上下文、工具调用及模型交互的无缝结合。


在工程实践上,该框架支持从本地 IDE 环境一键部署至云端,简化了开发—测试—上线的全链路过程,实现了从原型构建到生产交付的顺畅迁移。这为 Java 开发者提供了一套完整的 AI 应用工程化解决方案,降低了智能体应用的落地门槛,同时确保与现有企业系统的兼容与可扩展性。


AI 运行时

1759037597953_920D1146-9DFA-48b8-86FE-4D6723095501.png

函数计算 FC 为 AI Agent 与强化学习提供轻量灵活、安全隔离、极速弹性的沙箱(Sandbox)运行环境,基于函数计算打磨 Agent Runtime 以及 Sandbox(Code Interpretor、Browser Tools .....),已经服务于百炼、魔搭、通义千问、阿里国际、加和等阿里内外多个核心客户。


  • 第一,在安全隔离方面,函数计算通过安全容器技术,为每一个任务提供了虚拟机级别的隔离强度;请求级别、Session 级别以及函数级别多重隔离机制覆盖全场景 Sandbox 的业务诉求。
  • 第二,函数计算的架构生而为云,具备最小粒度的资源开销、极为轻量的元数据与资源的生命周期管理,超高并发的可扩展能力,轻松支撑单集群百万函数、单函数数十万实例以及百万QPS的超大并发能力。
  • 第三,具备极速弹性能力,支持缩容到零,能够在百毫秒内冷启动一个全新的沙箱实例。同时,基于内存快照技术实现忙闲时自动转化,从闲置到活跃可以做到 1 毫秒内极速恢复,业界最快,满足最极致的 Sandbox 延时诉求;真正按执行时长毫秒级计费,完美匹配 AI 应用稀疏调用以及瞬间 burst 的业务负载特征。


AI 网关:无侵入提升企业级能力

1759037616496_DE6770A6-4770-43b8-B179-15A03C0F6C11.png

与传统网关相比,AI 网关针对大模型调用场景进行了架构级增强。阿里云 AI 网关提供了开源(Higress)、商业(API 网关)两种交付模式。


  • 支持模型代理,超时重试,Failover,Token 和消费者级别流控和额度管理;将大模型稳定性提升一个数量级。 支持安全护栏,敏感信息脱敏,敏感信息拦截,WAF 防护,API-Key KMS 加密存储,TLS 加密传输,消费者认证鉴权等 AI 零信任能力。
  • 支持 MCP HUB 能力,零代码将 HTTP 协议转换 MCP 协议,快速复用存量系统工具;支持 MCP 组合和智能路由,零代码帮助客户从几个服务中筛选合适工具,支持 MCP 认证鉴权。
  • 支持软硬一体 Gzip 压缩和解压缩,性能提升 300%+,通过压缩帮助客户节省40%+流量;支持 Token 压缩能力,英文压缩 50% 基本不影响语义。 通过软硬一体将 TLS 卸载性能提升 116%,大幅提升 1 倍业务峰值吞吐。
  • 提供 AI 开放平台,支持 MCP 市场 / Agent市场(帮助客户快速复用基础 AI 服务,提升写作效率),支持 AI 服务的计量计费、成本分摊等,为 AI FinOps 提供基础,支持 AI API 的生命周期管理。


AI MQ:提升吞吐与稳定性全栈

1759037634597_7FCD3C51-6225-443e-9255-50DF7464F9C7.png

AI MQ 是我们推出面向 AI 场景的消息模型 LiteTopic,它具备轻量资源、有状态异步通信的特性,可实现 AI 多轮对话 Session 保持、Session 级顺序流式输出、 Agent 2 Agent 的可靠通信、多模态大消息体(50MB 以上)。具备一下特性:


  • 提供面向 AI 稀缺算力的消费调度模式,包括优先级、定速、权重等模式,最大化资源有效利用率。
  • 提供 AI 数据集成,支持多数据源实时构建知识库,构建实时 RAG 架构;支持事件流异步推理,批量异步推理;支持流式 AI ETL 处理。
  • AI MQ 存储引擎支持百万级 Topic 资源管理、百万级队列存储、百万级订阅分发。


AI 可观测:覆盖 IaaS 到应用

1759037651916_BA78D86D-1ADB-4d03-AA54-806F05D020D9.png

AI 应用可观测,是一次针对 AI 应用的可观测能力的全面进化。通过构建一个贯穿 AI 基础设施(IaaS)到大模型服务(MaaS)的全栈式、一体化的可观测解决方案。目标是为企业提供一个智算应用的“上帝视角”,清晰洞察从底层 GPU 算力、网络、存储,到中间层容器调度、模型推理与训练,再到上层 AI 应用与智能体交互的每一个环节。


构建统一可观测体系,采集从请求发起到结果返回全过程的数据,涵盖调用链路、token 消耗、失败原因等维度,为用户提供模型调用的实时状态、延迟波动情况以及 token 消耗的精确统计,帮助企业在性能与成本之间实现动态平衡。


阿里云统一可观测能力对主流开发框架保持透明兼容,开发者无需改造即可接入,从而在多样化的 AI 应用场景中提供一致的观测与治理体验。


数据工程:监控、评估到记忆

1759037672451_E27D2284-E0BC-4190-836C-0F453696C6A6.png

数据工程依赖统一可观测体系,我们提供了:

  • AI 全栈统一监控:基于 Prometheus 构建 AI 全栈监控大盘,包括模型性能分析、Token 成本分析、GPU 资源异动分析等。
  • 模型调用端到端链路追踪:基于 OpenTelemetry Trace 实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。
  • 模型日志存储与评估分析:构建统一日志分析平台,对模型调用日志进行二次评估分析,实现质量、安全、意图提取等语义检测。


AutoMemory:稳定与智能可兼得

1759037702266_BE546AA3-2867-42fc-BE9A-8A019F743848.png

在智能体应用中,后台 ETL 能力可对交互产生的大量数据进行抽取、清洗与结构化处理,并沉淀至 Memory 模块。通过将用户偏好、历史问题与上下文信息长期保存并动态更新,智能体能够在后续对话与任务中进行精准调用,从而具备持续学习与优化的能力,实现“越用越聪明”的效果。


AI DevOps+Coding+Operation

1759037718719_9E22E685-D3A9-493f-8CBF-D57623288D51.png

与此同时,体系还打通了 AI DevOps 流程:当代码提交与应用发布后,系统会自动捕获并关联线上问题,由 AI Agent 生成包含错误堆栈、对应代码位置及责任人信息的报告。这一过程显著缩短了故障定位与调试时间,并通过自动反馈机制推动问题快速修复,从而形成研发—运维—优化的智能化闭环,提升整体系统的可维护性与交付效率。


03 展望未来

1759037747147_B12C2F7D-AE89-4ec7-B3FF-850C90AAD493.png

传统计算体系建立在图灵机模型与确定性指令集之上,应用逻辑一旦编码完成便保持固定,系统运行结果可预测、可验证。而在 AI 时代,应用逐渐运行在以概率推理为基础的概率机之上,输出具有不确定性和动态适应性。


当前阶段,可以视为 “Iron Man”式的人机协同:人类依旧主导核心决策,但大量繁琐操作被智能体所分担,整体效率显著提升。展望未来,随着强化学习与反馈闭环的持续优化,智能体将具备更高水平的自适应能力,使人类能够将精力集中于创造性工作,应用本身则更贴近真实业务与生活场景。


从工程视角看,行业正经历从确定性系统向概率性智能体的范式迁移。这一转变要求底层基础设施不再仅仅是资源池,而要成为支持智能体的动态运行平台。通过云原生技术栈与 AI 工程化框架的深度融合,企业能够构建具备可信赖性(可观测、安全合规)、可扩展性(异构算力与弹性伸缩)、可进化性(模型迭代与上下文记忆增强)的下一代应用体系,从而推动智能化升级进入全新阶段。


展区和论坛一览 👇

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
2月前
|
人工智能 数据可视化 定位技术
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
369 39
|
1月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
2月前
|
人工智能 运维 监控
让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动
本次大赛由阿里云主办,云原生应用平台承办,聚焦 Operation Intelligence 的智能运维(AIOps)赛道,为热爱 AI 技术的开发者提供发挥创意和想象力的舞台,借助 LLM 强大的推理能力与标准化整合的多源可观测数据,找到 AI 应用在智能运维(AIOps)场景上的新方式。
378 31
人工智能 关系型数据库 分布式数据库
249 19
|
2月前
|
设计模式 机器学习/深度学习 人工智能
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
|
6月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
515 41
|
2月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
303 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
6月前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
381 15
|
7月前
|
开发框架 人工智能 Java
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
|
2月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
1060 11