SOFA AI 网关基于 Higress 的落地实践

简介: SOFA 商业化团队为满足客户 AI 业务的发展需求,基于开源 Higress 内核构建,推出了 SOFA AI 网关,专为 SOFA 场景深度优化、能力增强,是面向 AI 需求的智能网关解决方案。

作者:SOFA 社区


01 背景


网关作为重要的中间件,在传统业务中扮演着流量治理、路由转发、协议转换、安全防护等功能。根据不同业务场景的定位,也会衍生出不同类型的网关,例如流量网关、ESB(企业服务总线)、API 网关、云原生网关。从网关职责看,其本质所承担的职责没有太多变化,主要是针对不同业务场景下作更多的适配,更好地满足业务使用。比如,API 网关则是针对微服务场景,将原有的管理粒度从粗粒度的流量或服务,转换成了细粒度的 REST 或接口维度的管理,从而实现了更精细化的治理,这是从流量网关演变为 API 网关的核心驱动力。


在 AI 场景下,业务模式发生了根本性的变革,网关所面对的挑战也从“服务”转向了“模型”和“智能体”等。这种转变并非简单的技术迭代,同时带来业务逻辑、交互模式、资源消耗和风险模型的全面重塑。


为了有效支撑日益复杂多样的 AI 业务场景(如服务模型、智能体、AI 应用及 MCP 等),API 网关的角色亟需从通用型升级为专业化的 AI 网关。原有通用网关的核心能力已无法满足这些场景的特定需求,因此 AI 网关针对性地拓展和强化了能力集,衍生出智能路由、模型统一接入、语义缓存、内容安全、MCP 代理、模型限流等核心特性。


为助力企业 AI 业务的快速发展,蚂蚁集团 SofaStack 基于 Higress 推出了专为 AI 场景设计的 SOFA AI 网关(SOFA Higress),为企业 AI 应用提供高效、稳定且安全的统一入口。


02 SOFA AI 网关定位


SOFA AI 网关(又名 SOFA Higress)基于开源 Higress 内核构建,专为 SOFA 深度优化、能力增强,是面向 AI 需求的智能网关解决方案。


SOFA AI 网关在构建之初即明确了其定位:为三类核心 AI 业务场景提供专业化服务:


  • 智能体代理:作为智能体流量的统一出入口网关,提供安全防护与流量管控。同时作为智能体的工具集(Tools Hub),统一管理工具列表,通过 AI 网关打通智能体与外部系统的连接。将业务存量 API 快速转化为智能体可识别和调用的 Tools。此外,通过 MCP 协议提供 REST-to-MCP 转换功能,加速存量业务 MCP 化进程,极大简化智能体的对接与调用。
  • 模型代理:提供模型推理网关能力,集成语义缓存、内容安全、统一接入等核心功能,显著降低模型接入复杂度与成本。同时,基于精细化业务属性与特征,提供精准的模型限流保障。
  • MCP 市场服务:构建金融领域专属 MCP 市场,提供专业化的金融数据和丰富的金融业务服务,赋能金融场景业务,有效提升智能体研发的效率与质量。


下面将从以上三部分内容详细展开。


03 落地实践


3.1 技术选型

SOFA AI 网关使用 Higress 作为内核,主要考虑其强大的开源社区,丰富的扩展机制等,同时和网关未来多网关融合目标一致,因此我们基于 Higress 网关构建,并将原有 API 网关、数据网关、互通网关等能力迁移。


3.2 智能体出入口网关

当前智能体无疑是最热的话题,很多企业开始构建自己的垂直业务智能体。为了帮助企业更好、更快地构建自己的智能体,我们将网关明确定位为智能体流量的统一出入口网关。


SOFA AI 网关为智能体提供关键能力:


  • 保障入口安全与稳定:对进入智能体的下游流量实施安全防护与业务限流,确保智能体应用的稳定运行与安全防护。
  • 赋能智能体核心能力:智能体自身需依赖模型、工具、知识库等进行推理、规划并缓解幻觉问题,以持续提升问题解答质量,最终成为专业的智能体。为此,网关在智能体的出口流量侧对出口流量统一收敛,简化智能体与外部对接成本。

1761724033500_9D092087-585D-4653-A739-3852B1B19398.png

SOFA AI 网关在智能体出口流量侧,主要提供了以下几个关键功能:


  • 模型代理。提供统一的模型接入与管理层,支持便捷的模型替换(如 A/B 测试效果验证)、流量控制及 Token 统一管理,大幅简化智能体研发过程中的模型迭代。鉴于模型资源成本高昂,网关还实现了业务级精细化的模型调用限流,有效防止部分业务过度消耗资源,保障整体模型服务的性能与稳定性,避免资源争用。
  • 工具和 MCP 管理。SOFA AI 网关充当智能体与企业存量系统的桥梁,将现有的 REST API 标准化封装为智能体可识别的 Function 调用,实现服务的便捷集成与统一管理。随着 MCP (Model Calling Protocol) 协议的出现,网关进一步将存量 API 转换为 MCP 格式供智能体使用,极大简化了智能体对接后端服务的流程。对于企业采购的外部 AI 服务(通常具有独立的认证体系),网关作为统一的出口代理,处理复杂的对接协议和认证,使智能体能够无缝调用外部能力,专注于核心业务逻辑。
  • 数据服务与快速取数:SOFA 网关内置数据开放 API,能够将大数据平台处理后的结果,通过 SQL 查询动态生成 REST API,进而封装为智能体可直接使用的工具。鉴于 NL2SQL(自然语言转 SQL)和 NL2Data(自然语言取数)技术的兴起,网关规划集成此类功能,未来将支持用户/智能体通过更自然的语言指令高效获取所需数据。


3.3 推理网关-模型智能路由代理

网关在代理模型服务时与传统服务代理存在显著差异。这种差异的根源在于模型服务自身独特的流量特性,主要包括:


  • 高延迟与排队效应:模型推理需复杂计算,单请求处理时间远超传统服务(可达数秒至分钟)。新请求到达时,若实例正忙,会进入队列等待,导致首个 token 响应时间大幅延长,用户体验下降。这与传统服务的快速处理模式形成对比。
  • 高资源消耗与持续占用:模型推理依赖 GPU 等专用硬件,是计算密集型任务。GPU 资源(显存和算力)是关键瓶颈,一个推理请求会全程占用资源,无法像传统无状态服务那样快速释放资源。
  • 处理时间差异大:模型请求耗时受输入/输出长度、模型复杂度和任务类型影响,波动极大(几秒到数分钟)。这种不确定性使传统基于固定时间窗口或连接数的负载均衡策略难以适用。


正是基于模型流量的上述核心特点,传统网关常用的负载均衡策略(如简单的轮询、最少连接数、随机)在模型服务代理场景下往往效果不佳,甚至适得其反。例如,轮询可能将新请求分配给已满载并处于排队状态的实例,从而进一步加剧延迟。因此,模型服务网关需要提供更智能的路由策略,能够根据模型实例的实时负载、KV Cache 状态、队列情况等指标进行动态决策。


SOFA AI 网关作为模型的统一入口,负责实现模型的多集群路由与代理功能,并提供模型注册、下线的生命周期管理以及智能路由能力。

1761724087193_94B51CD5-45D1-4536-9C50-E5451EF07856.png

SOFA AI 网关的智能路由逻辑与开源 Higress 以及业内推理网关的实现方式有所不同,但融合了两者的优势。Higress 的智能路由能力完全在插件中实现,即所有路由逻辑均通过插件方式开发和集成,包括基于 metrics 指标的路由。这种设计在性能上表现较佳。而当前业内的推理网关普遍基于 Gateway API Inference Extension 规范实现,通过独立部署的 EPP 服务进行路由选择。


SOFA AI 网关出于提升交付效率的考虑,既未选择直接修改 Higress 数据面源码集成 Gateway API Inference Extension 能力,也没让业务侧直接在插件里写路由插件。相反,我们通过开发 Higress 插件,通过支持 ext-proc 协议对接业务侧的 EPP 服务或使用 http 协议对接传统服务,方便自定义路由扩展。


当然,未来为更好地与行业标准对齐,我们也计划在数据面进行修改,以集成原生的 Gateway API Inference Extension 能力。


3.4 MCP 市场

在智能体项目的实践中,我们认识到高质量的工具(特别是专业化的 MCP)和权威数据是智能体能力的关键。通用大模型在金融等专业领域落地存在显著局限:知识可能过时、缺乏深度行业理解、难以保证回答的准确性与合规性。


专业工具(MCP)的作用在于:


  • 提供精准、实时的专业能力:将复杂的金融分析、诊断、解读等任务封装为可调用的服务,确保输出结果的专业性和可靠性。
  • 接入权威、动态的数据源:直接对接处理好的专业数据及合作方的核心金融数据,解决通用模型数据滞后、来源单一的问题。
  • 提升效率与可扩展性:将特定能力模块化、服务化,便于智能体按需调用,也利于能力的持续迭代和复用。因此我们基于蚂蚁的金融专业能力,以及在宁波等项目沉淀的智能体研发经验,将一些有质量的金融数据、金融服务包装成 MCP,构建一个 MCP 市场,为专有云的智能体提供 SaaS 化服务。 我们旨在将沉淀的金融专业能力(知识、数据、流程、风控等)进行标准化、服务化封装,构建一个金融能力“乐高”市场。SOFA AI 平台已上架并持续丰富一系列面向金融场景的 MCP,为智能体提供强大的“专业工具箱”。目前已经上架多个金融领域 MCP,如产品诊断、配置选品、行情解读、事件解读等。

1761724128193_6079C589-537C-49c6-8342-6C8AA54A52AA.png

MCP 市场地址:https://mcp.sofa.antdigital.com/mcp/home

0732209ce8e07f90d8b596d825436bb8.png

04 未来展望


在建设过程中,我们也遇到了一些新的挑战,主要包括实体识别准确度不足和 MCP 上下文超限等问题。


实体提取不清晰用户通过自然语言查询或操作 MCP 服务时,涉及的关键输入(如基金、股票名称或代码)高度依赖精准的实体识别。然而,当用户使用别名、行业非标准称谓(俗称“黑话”)或不完整名称时,模型提取的结果可能无法准确对应到真实的金融实体(如基金名称或证券代码)。这直接影响后续处理的准确性和用户体验。因此,我们亟需引入“提槽”工程能力,通过对识别结果进行精细化校验和映射,以提升用户交互体验和信息召回率。


MCP 上下文爆炸目前平台已上架的专业 MCP 达到 15 个,且未来数量将持续增加。接入过多的 MCP 会显著膨胀单个请求的处理上下文(Context),对模型的性能和资源消耗造成压力。针对此问题,构建一套智能化的 MCP 路由机制变得尤为重要,以便根据用户请求精准筛选所需的服务模块,避免不必要的上下文加载。


构建提槽能力和 MCP 智能路由能力,也将是 SOFA AI 网关在下半年重点发力的方向。


最后,感谢 Higress 开源团队,因为有 Higress 这么好的产品,SOFA AI 网关才能得以快速孵化。

相关文章
|
3月前
|
消息中间件 人工智能 Apache
阿里云两大 AI 原生实践荣获 2025 年度 OSCAR “开源+”典型案例
恭喜阿里云微服务引擎 MSE、Apache RocketMQ for AI 获权威认可!
306 40
|
4月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1117 51
|
3月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5062 74
|
2月前
|
监控 应用服务中间件 nginx
Agentic 时代必备技能:手把手为 Dify 应用构建全链路可观测系统
本文讲述 Dify 平台在 Agentic 应用开发中面临的可观测性挑战,从开发者与运维方双重视角出发,系统分析了当前 Dify 可观测能力的现状、局限与改进方向。
578 58
|
6月前
|
人工智能 安全 程序员
AI Gateway 分析:OpenRouter vs Higress
本文对比了两种AI网关——OpenRouter与Higress的定位、功能及演进历程。OpenRouter以简化AI模型调用体验为核心,服务于开发者群体;Higress则基于云原生架构,为企业级AI应用提供全面的流量治理与安全管控能力。两者分别代表了AI网关在不同场景下的发展方向。
|
3月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
770 67
|
1月前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
2228 31
|
4月前
|
消息中间件 存储 运维
嘉银科技基于阿里云 Kafka Serverless 提升业务弹性能力,节省成本超过 20%
云消息队列 Kafka 版 Serverless 系列凭借其秒级弹性扩展、按需付费、轻运维的优势,助力嘉银科技业务系统实现灵活扩缩容,在业务效率和成本优化上持续取得突破,保证服务的敏捷性和稳定性,并节省超过 20% 的成本。
279 35
|
16天前
|
人工智能 Kubernetes 应用服务中间件
AI 网关这一年,成了 AI 进化的缩影
未来,让每一个想用 AI 的企业,都能稳稳地迈出第一步。
|
1月前
|
消息中间件 人工智能 运维
从这张年度技术力量榜单里,看见阿里云从云原生到 AI 原生的进化能力和决心
12 月 9 日,由 InfoQ 发起的“2025 中国技术力量榜单”评选结果正式揭晓,阿里云云原生应用平台凭借在 AI 原生应用领域的系统性布局与技术创新实践,一举揽获七项核心大奖,标志着阿里云在云原生领域的深厚积累,正在系统性进化为 AI 原生的全栈领导力。

热门文章

最新文章