分布式 Multi Agent 安全高可用探索与实践

本文涉及的产品
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,182元/月
简介: 在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。

作者:亦盏


在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。


最近,国务院印发《关于深入实施“人工智能+”行动的意见》,明确提出“到 2027 年,新一代智能终端和智能体普及率将超过 70%;2030 年突破 90%,智能经济将成为我国经济发展的重要增长极;到 2035 年,全面步入智能经济与智能社会新阶段。”


这一系列目标的背后,正是以 AI Agent 为核心的技术体系逐步走向成熟并大规模落地的信号。

1760165529671_6BF2CD61-E5BD-4200-B37F-C778034C9021.png

OpenAI 创始人 Andrej Karpathy 曾提出一个经典的三段论,用以描述软件编程范式的演进:


  • 软件 1.0 时代:通过 Java、Go 等编程语言直接操控 CPU,编写确定性的逻辑。
  • 软件 2.0 时代:开始训练神经网络,通过调整参数权重来“编程”模型。
  • 软件 3.0 时代:大模型兴起后,进入了“面向 LLM 编程”的时代——应用的行为不再完全由代码决定,而是由大模型自主推理、决策和执行。


这标志着应用开发形态的根本转变:AI Agent 的运行逻辑,越来越多地依赖于模型自身的智能能力。而在这样的背景下,AI Agent 的开发方式也经历了三个阶段的演进:低代码、高代码、零代码。

1760165547742_E03FE87A-83B4-4216-95B3-8A241A3B03FD.png

1)低代码:快速验证,但局限明显

低代码平台以“拖拽式画布”为特征,极大降低了入门门槛,在早期概念验证(POC)中发挥了重要作用。但由于其高度抽象,灵活性差、性能受限,难以应对复杂业务场景,通常止步于实验阶段。


2)高代码:当前主流选择

基于开发框架编写代码的方式来开发 AI Agent,相比低代码,高代码具备更强的性能、更高的灵活性,在当前模型能力还不是足够智能的情况下,能够平衡好模型的自主性与复杂场景下的业务要求确定性,是目前的主流。


3)零代码:未来愿景,尚不成熟

零代码希望用户仅通过自然语言就能驱动整个应用构建,完全依赖模型的规划与执行能力。虽然愿景美好,但受限于当前模型的认知边界和稳定性,还无法支撑真实业务的可靠交付。


综合来看,现阶段最可行且可持续的路径,依然是基于框架的高代码开发模式。


随着 Agent 场景日益复杂,开发框架也在不断演进。可以将其划分为三个代际:

1760165569579_1B3A4603-1336-49c3-BAAD-00C7BEAF0A51.png

Chat Client 模式

这是最原始的形式——输入一句话,模型回答,一问一答的模式。虽然他也支持工具调用和循环执行,但所有逻辑都依赖同一个模型,在相同的提示词和上下文下反复决策,受限于模型当前的能力,难以稳定处理复杂的业务场景,比如错误恢复、并行协作等。


Workflow 框架

这类框架以 LangGraph 为代表,它基于流程编排引擎,将任务拆解为多个节点,支持条件判断、循环、并行等逻辑,很好地解决了传统业务流程 AI 改造的问题,从“聊天式交互”升级到“结构化执行”。


然而这种人工编排的方式也有明显短板:随着业务规模扩大,流程越来越复杂,维护成本指数上升。更大的问题是这种“静态”编排的架构,无法享受到模型能力不断提升的红利。


Agentic API

大家逐渐意识到,开发 AI Agent 需要面向 Agent 的抽象提供 Agentic API。阿里巴巴的 AgentScope、 Google 的 ADK 都是典型的代表。基于面向 Agent 抽象,让开发者既能享受模型的自主规划与动态决策能力,又能通过结构化设计确保稳定性与可控性。从而能开发出可扩展、可维护与可持续进化的 AI Agent。


在上个月初,阿里云官方发布了智能体开发框架 AgentScope 1.0 正式版,这是一个里程碑式的版本。

1760165589632_43227810-E416-469c-A451-2B310F974FC1.png

AgentScope 主要包含三大核心模块:


  • Framework:支持可中断、可恢复的执行控制,内置长短时记忆机制,支撑长期任务处理;同时提供高效的工具调用系统,支持按需激活与动态加载。
  • Runtime:基于容器技术构建安全沙箱,隔离外部操作风险,并提供强大的部署与运行引擎,支持快速发布与灵活管理。
  • Studio:提供完整的调试与观测能力,集成评测系统,帮助开发者理解执行过程、保障迭代质量。


过去,这些能力主要服务于 Python 开发者。但从今天起,AgentScope 正式推出 Java 版本!这意味着广大的 Java 开发者也能轻松接入这套先进的 Agent 开发体系。不仅如此,我们还将 Spring AI Alibaba 的内核全面升级为 AgentScope,打造了一个自动装配、开箱即用的 Java 原生 Agent 框架,助力企业快速构建生产级智能应用。

1760165606102_DEE68F7A-0ADD-4ec2-A44D-AE047217AFEC.png

为什么 Multi-Agent 系统必然是分布式的?


对企业而言,开发 Agent 最大的挑战往往不在于技术本身,而在于复杂的业务流程——这不仅是开发过程中最困难的部分,也是企业的核心竞争力。


然而,现实中很少有一个团队能够完全了解企业内所有业务流程,更别说独立完成所有流程的开发与实现。因此,现实的情况还是多个不同的团队开发不同的业务系统,系统的架构最终往往会遵循康威定律:即组织架构决定了系统架构,架构自然会演变为模块化、分布式的架构。


再从高可用的角度来看,传统的单体架构始终面临单点故障和性能瓶颈的风险。为了实现高可用与弹性扩展,Multi-Agent 系统必须采用分布式架构。


所以说,无论是从业务的角度,还是技术的角度,分布式架构都是必然选择。

1760165973833_674ADA7D-86D4-47ec-8EF2-5F7E9D094455.png

Agent 执行流程具备几个显著特点:执行流程长、输出结果不稳定、执行过程有状态、计算成本高。而当分布式 Agent 协同工作时,这些挑战会被进一步放大。


首先服务注册与发现成为关键问题—每个 Agent 如何注册自身能力?其他 Agent 又如何准确发现并调用它?


然后在分布式架构下,安全不容忽视。既要防止 Agent 被恶意攻击,保护 API Key 等敏感凭证不被泄露,同时确保生成内容符合合规要求,避免法律风险。


针对 AI 任务执行时间长的特点,引入消息队列作为异步中枢,实现任务解耦与非阻塞调用,提升系统吞吐量。同时,基于 MQ 构建了持久化 Checkpoint 机制:关键状态自动保存,任务中断后可从最近断点恢复,有效降低计算成本与失败损失。


最后,面对突发流量,必须构建完善的流量防护与高可用机制,通过熔断、限流等手段,保障系统稳定运行。


可以说,构建一个高效、安全、可靠的 Multi-Agent 系统,不仅是 AI 的挑战,更是对工程架构的全面考验。而这一切,离不开 AI 中间件。

1760165992834_CB219EE7-2A03-4a29-9919-7D046D3F8F24.png

提到注册配置,大家都会想到 Nacos。在微服务时代,Nacos 国内市场占有率有 60% 以上,包含 Azure 在内的海内外主流云厂商都提供了 Nacos 托管产品。面向 AI 时代的今天,Nacos 升级成了 AI Registry。


在 AI 工具方面,Nacos 支持了 MCP Registry 官方协议,无需任何代码改造,就能将传统应用快速转变为 MCP Server 并动态统一管理。


在多 Agent 协作方面,Nacos 是首个支持 A2A 协议的注册中心。Agent 注册到 Nacos 之后,调用方只需填写 Nacos 地址,即可实现分布式多 Agent 的编排,让 Agent 的分布式协作像单体应用一样的简单和稳定。


在配置管理方面,基于 Nacos 的动态推送能力,还能实现 Agent 能力的动态更新:无需重新部署,即可灵活调整 Agent 运行时行为。


Nacos 3.1 版本已经在开源社区和阿里云 MSE 同步发布,大家可以直接在阿里云 MSE 中使用 Nacos 的最新版本。

1760166013687_95BB2043-D975-4f32-B323-8CC994325EE9.png

AI 原生应用的全链路安全,安全主要关注三个方面:流量入口、AI 资产安全和生成内容安全。首先,API 网关入口安全是第一道防线。通过 Higress API 网关,实现了 mTLS 双向加密通信,确保传输安全;同时集成 WAF 防火墙,抵御常见 Web 攻击。结合登录认证、IP 黑白名单和自定义鉴权,构建了多维度的访问控制体系,有效防范非法请求。


在 AI 相关配置安全方面,以 API Key 为例,引入 Nacos 作为统一配置中心,支持密钥加密存储与定时轮转,防止敏感信息泄露。并且在 Higress AI 网关中集成了多重防护机制。支持 JWT、Oauth 等多种消费者认证方式,确保调用方身份可信,有效保障 AI 资产安全。


最后,针对 AI 生成内容的安全,接入了阿里云 AI 安全护栏和第三方 SaaS 审核服务,对所有输出内容进行实时审查,防止生成违法、违规或有害信息。实现了“流量入口安全、AI 资产安全、生成内容安全”的全链路安全。

1760166034609_D3F8DF92-37B0-4dc7-AF49-6A019EEC058F.png

在 AI 原生架构时代,传统的限流方式已经不再适用了。过去微服务限流方式很简单——比如限制每秒只能接受 100 个请求,简单好用。但到了 AI 时代,这套方法不灵了。在大模型时代,每个请求的长度是不一样的:有人让你写一句问候,有人让你生成一篇 5000 字报告。虽然都是“一个请求”,但消耗的计算资源可能是几十上百倍的差距。如果还按“请求数”来限流,就像打车收费都是一口价,只看次数不看里程,显然不合理。


AI 时代的限流必须使用一套新的方式。


首先,要基于 Token 做精细化限流。Higress AI 网关支持实时统计每个请求的输入输出 Token 数量,并以此作为限流的依据。


然后,要做分级优先级调度。我们通过 API 网关给不同来源的流量打标——比如付费用户、免费用户等,标记成不同优先级。然后在 AI 网关处根据标签进行分级调度,确保高优任务不被低优流量挤占。


最后,限流阈值不是固定值,要实现动态自适应限流。AI 网关能实时感知后端 GPU 的负载情况。一旦系统压力上升,就自动收紧免费用户的配额,优先保障核心业务。


阿里云 Higress 网关原生支持 Token 级限流、优先级调度和自适应限流,这些功能都是开箱即用的。不需要修改任何代码,您就可以直接使用阿里云 Higress 网关保障 AI 应用的高可用。

1760166057007_9A71FDF2-D5D4-4434-BC8F-05E2AFCAD93A.png

过去上线前的测试流程很简单:跑一遍回归测试,看看用例是不是都通过,通过了就能放心地上线。但现在的 AI 应用不一样了——同样的问题问两遍,答案可能就不一样。它的输出是灵活的、概率性的。我们没法在上线前穷举所有的测试用例,如果继续使用原来的测试方式,就会出现线下测得很好,一上线面对真实用户就“翻车”的情况。


我们必须把评估测试从“项目上线前的最后一步”变成贯穿应用生命周期的核心流程。每一个功能上线,都要走 A/B 测试,用真实流量去验证效果。


在真实流量产生之后,这个评估过程他必须是实时的、自动的。这里阿里云可观测产品支持通过日志、Metrics 等可观测数据,自动去做提取、去重、关联,生成测试集,触发实时评估。看看 A/B 测试中,到底哪个策略生成的质量更高、用户的体验更好,从而做出正确的决策。


更重要的是,这些评估过程不只是停留在“打分”阶段,还能沉淀下大量高质量的数据——既有效果明显提升的数据,也包含用户不满意的案例。把这些数据清洗标注后,反过来再去训练和优化模型。


这就是我们要打造的“正向数据飞轮”:以数据为中心,持续建设高质量数据集,训练竞争壁垒。评估不再只是验收环节,而是 AI 应用持续进化的“引擎”。只有这样,我们的 AI 应用才能真正地持续进化、越用越好用。


AI Agent 的时代已经到来。它不仅仅是技术的革新,更是开发范式、工程架构乃至组织协作方式的全面重构。


从开发框架的演进,到 Python、Java、Golang 全生态的支持;从分布式系统的落地实践,到全链路安全与智能评估机制——每一步都在推动 AI 原生应用走向成熟。


未来已来,只待躬身入局。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。


点击此处,关注 AgentScope  Java 版本最新动态。

相关文章
|
30天前
|
关系型数据库 Apache 微服务
《聊聊分布式》分布式系统基石:深入理解CAP理论及其工程实践
CAP理论指出分布式系统中一致性、可用性、分区容错性三者不可兼得,必须根据业务需求进行权衡。实际应用中,不同场景选择不同策略:金融系统重一致(CP),社交应用重可用(AP),内网系统可选CA。现代架构更趋向动态调整与混合策略,灵活应对复杂需求。
|
3月前
|
数据采集 消息中间件 监控
单机与分布式:社交媒体热点采集的实践经验
在舆情监控与数据分析中,单机脚本适合小规模采集如微博热榜,而小红书等大规模、高时效性需求则需分布式架构。通过Redis队列、代理IP与多节点协作,可提升采集效率与稳定性,适应数据规模与变化速度。架构选择应根据实际需求,兼顾扩展性与维护成本。
104 2
|
6月前
|
人工智能 安全 应用服务中间件
阿里巴巴 MCP 分布式落地实践:快速转换 HSF 到 MCP server
本文分享了阿里巴巴内部将大规模HSF服务快速转换为MCP Server的实践经验,通过Higress网关实现MCP协议卸载,无需修改代码即可接入MCP生态。文章分析了MCP生态面临的挑战,如协议快速迭代和SDK不稳定性,并详细介绍了操作步骤及组件功能。强调MCP虽非终极解决方案,但作为AI业务工程化的起点具有重要意义。最后总结指出,MCP只是AI原生应用发展的第一步,未来还有更多可能性值得探索。
1138 48
|
2月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
6月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2081 57
|
6月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
650 35
|
7月前
|
存储 负载均衡 测试技术
ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with Inference Extension组件,在Kubernetes环境中为多机分布式部署的LLM推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
8月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
658 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
8月前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
10月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
491 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!

热门文章

最新文章