森马如何用阿里云 AI 网关,轻松实现“AI+业务”高效落地

简介: 森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%。

作者:森马 数字中心-杭州研发部;基础运维部、阿里云产品运营专家刘森(延德)


本文导读:

森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%


森马简介

上海森马服饰有限公司(以下简称“森马”)是中国休闲服饰和童装领域的领先企业,旗下拥有“森马”、“balabala”、“mini bala”等十余个核心品牌。其中,balabala 品牌在中国童装市场占有率连续多年位居第一,并跻身全球童装市场前列。集团覆盖线上线下全渠道零售,门店总数达到 8000+ 家。2025 7 23 日,中国服装协会发布“2024 行业百企发布”名单。森马服饰凭借卓越的市场表现,成功入围“营业收入”、“利润总额”和“营业收入利润率”三项指标榜单,再次彰显其在国内服装行业的领军地位。


2023 年起,森马中台技术团队正式启动 AI 探索之旅。初期,团队基于 Serverless 函数计算平台,为设计师与消费者提供高效的服饰设计支持,显著提升了图像生成效率与顾客满意度。


进入 2025 年,森马全面加速 AI 战略布局,将智能化能力快速延伸至法务、财务、采购、物流、IT 及运维等多个核心业务领域,面向集团内外部团队提供高效、可复用的 AI 服务,持续释放组织生产力。在此过程中,团队聚焦大森 3.0 平台建设,以快速上线、持续优化为核心目标,推进智能体(AI Agent)的规模化落地。通过构建标准化、模块化的智能体架构,实现从需求识别、开发训练到部署运营的高效闭环,大幅缩短 AI 应用交付周期,加速 AI 价值在业务场景中的转化与沉淀。


森马在 AI 时代面临的挑战

然而在 AI 转型过程中,随着 AI 在业务中使用越来越深入,森马的技术团队同学们陆续发现了如下问题:


  1. 模型太多,不好管。森马在百炼平台调用不同的商业化模型,同时自身还有在 PAI 平台训练/微调的模型,不同的模型如何进行统一管理统一鉴权;
  2. 谁用了多少 AI?成本怎么分摊?森马的不同模型都会交叉给到各个业务团队进行使用,如何整体统计各个团队及二级经营单元的 AI 使用情况、以及后续成本如何分摊给各业务单元;
  3. 模型偶尔“罢工”,影响体验。大模型整体 SLA 有限,当部分模型服务出现问题的时候,如何确保业务团队的使用体感,避免问几次问题均返回失败导致业务团队对大模型印象降低而放弃使用的问题;
  4. 老系统改造太麻烦。森马的 AI 业务强依赖于存量的几百个微服务,全部手工转成 MCP server 费时费力。


上述问题看起来都有解法,但是需要森马的技术同学在业务研发以外投入较大人力才得以解决。为了快速解决上述问题,森马引入了阿里云 AI 网关进行模型与 MCP server 的统一管理,提高了 AI 的落地效率。


为什么选择阿里云 AI 网关


森马技术团队选择阿里云 AI 网关,主要基于以下考量:


1. 统一模型入口

AI 网关面向 AI 场景全新打造,可以统一管理商业大模型服务和用户自建的大模型服务,并统一对外暴露的 API (兼容 OpenAI),截止 2025 8 月,AI 网关已支持包括阿里云百炼、OpenAI 等在内十几家国内外大模型供应商和自建大模型服务(如 ollama)。


2. 模型切换与模型路由管理

AI 网关提供按比例、按模型名称等多种形式的 AI API 集成方式,用户可根据业务需求灵活配置;Model API 的模型服务因异常、故障或高负载而无法正常响应时,通过配置 Fallback 切换到备用模型,有效避免因模型服务中断导致的响应失败问题。

1764056852942_affd370ff7d949338c2269606c78a347.png

3. 安全可控

AI 网关提供多模型统一的鉴权、限流、api key 分发、内容安全等能力,解决用户在安全方面的顾虑;消费者鉴权通过 API key 的认证方式验证调用者的身份,精准控制 API 访问权限,实现多租户细粒度管控,保障敏感数据隔离与合规调用,有效防止未授权访问和资源滥用。限流策略专为大模型服务及高并发调用场景设计,采用基于调用 Token 量的动态控制机制,取代传统请求数或请求体积的限流方式。该策略可针对消费者身份、请求 Header 参数、Query 参数、客户端 IP 等多维度配置限流规则,根据单次 API 调用消耗的 Token 总量进行实时计费和流量管控。这种以 Token 消耗为核心的限流模式能精准匹配大模型计算资源消耗特性,有效防止系统过载、接口滥用及恶意调用,同时保障核心业务在复杂场景下的稳定运行。AI 网关支持多种限流范围(如每秒、每分钟、每小时、每天),可以根据业务需求灵活调整限流规则,确保系统在高并发场景下仍能稳定运行。同时支持通过对特定消费者、headerquery 参数或 cookie 进行限流,可以有效限制爬虫或自动化工具的访问频率,保护数据安全。

1764056872814_bdaf80642d164ac5802555da143c7261.png

4. AI 观测

结合阿里云可观测产品,AI 网关提供统一 AI 观测能力,包括 AI 请求的 MetricsLogging Tracing 能力。与一般的 API 观测不同,AI 观测支持按 Token 维度对 AI 调用进行统计,支持 API、模型、消费者等观测维度,AI 请求和响应的日志也会被记录下来,用于后续的追踪与审计。核心指标包括 token 消耗数、QPS、请求成功率、首包延迟(TTFT)、每 token 输出时长(TPOT)等。同时,所有网关日志及 MCP 服务日志均可保存至阿里云日志服务 SLS 中,用户可以根据业务需求进行告警、加工、投递等相关操作。

5. 存量业务一键升级 MCP

AI 网关的 MCP 服务管理能力提供 RESTful API MCP 服务的平滑迁移能力,支持SSEStreamable HTTP 两种协议访问,并集成基于消费者身份的鉴权认证机制,为企业级 API 治理提供技术支撑。此外,MCP 支持直接代理模式,适用于原生支持 MCP 协议的服务。该模式能够实现高效的流式通信和上下文保持,特别适合高并发、长连接的场景,例如 AI 推理、多模型协同等。同时,MCP 还可与 Nacos Registry 深度集成,通过 Nacos 提供的 MCP Router 功能,实现服务注册发现及协议自动转换,支持存量 HTTP 服务“零改动”升级为 MCP 协议接口,结合 AI 网关实现服务的动态治理与智能路由。


MCP 服务管理能力覆盖的业务场景:森马全域货通中台 1 个工作台、2 个智能体、8 个业务场景、4 种解决范式(商品缺货分析,2B2C 找货分货,智能链路排查等业务场景),MDM 主数据,大森 3.0 平台。

1764056942916_8ef104514ba045ad9fba62ccfe4cba8b.png

消费者认证

1764056957150_a0adc30d79d24f539d92d58213d2c4a5.png

MCP 调用统计

1764056974858_e3ec0523c8be4ec899d510e5625fce5a.png

6、缓存

在重复性强的 AI 请求场景,AI 网关通过 Redis 精确缓存与语义缓存的双引擎协同,实现对大语言模型(LLM)调用的降本增效。直接减少用户请求等待时间提高用户体验,并减少 token 消耗降低企业模型调用成本。


通过使用 AI 网关的相关能力,森马在 AI 领域的应用上线时间缩短了 50%,用户体验提高了 60%AI 请求成功率提高了 50%AI 网关持续支持森马落地更多 AI 应用。


未来规划


基于与阿里云 AI 网关的深度合作基础,森马将以“动态协同、效率跃迁、价值倍增”为核心,持续深化 AI 技术与业务场景的深度融合,重点聚焦两大方向发力:


1. 深化 AI 网关动态路由能力,实现 LLM 智能调度与价值最大化

森马将充分发挥 AI 网关的动态路由优势,构建“业务场景 - 模型能力 - 资源消耗”的智能匹配体系。通过精准识别不同业务场景(如设计生成、法务合规审核、供应链智能调度、客户服务应答)的核心需求,结合模型的擅长领域(如创意生成类优先调用生成式大模型、数据计算类优先调用轻量化推理模型)、响应速度、Token 成本等多维度指标,实现 LLM 的动态调用与智能切换。例如,设计师进行服饰图案创意生成时,自动路由至生成质量更优的模型;财务团队进行票据数据提取时,切换至效率更高、成本更低的轻量化模型,让每一次 AI 调用都精准匹配业务价值需求。


2. 构建业务 - AI 一体化动态流量均衡体系,保障全域服务稳定性与高效能

针对服饰行业“大促峰值、新品上市、供应链波动”等场景下的流量波动特点,森马将基于 AI 网关的流量治理能力,打造“业务场景 - AI 服务 - 计算资源”三位一体的动态均衡机制。通过实时监控不同业务线(零售、商品供应链、研发)的 AI 调用流量、Token 消耗峰值、模型负载状态,自动调整流量分配策略:在大促期间,优先保障线上客服、订单履约等核心业务 AI 资源供给,通过流量削峰与错峰调度避免系统过载;在日常运营中,动态均衡各二级经营单元的 AI 资源占用,确保法务、采购等后台业务的稳定响应。同时,结合 Nacos3.0 的服务注册发现能力,实现 AI 流量与存量业务流量的协同调度,让全域系统在高并发、强波动场景下仍能保持 99.9% 以上的可用性,既避免资源浪费,又杜绝业务中断风险。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
3月前
|
数据采集 人工智能 供应链
2025医药行业Agent案例:从研发到终端的8大场景+15个标杆实践
AIAgent正深度重构医药行业,覆盖研发、生产、医疗、营销等八大场景。六周完成晶体结构确认、诊断建议与专家一致性超98%、7×24小时精准处理订单……15个标杆案例揭示:Agent已从概念落地为核心生产力,推动新药研发提速30%,年复合增长率达42%。
819 1
|
2月前
|
消息中间件 人工智能 NoSQL
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
基于 RocketMQ SDK 实现了 A2A 协议的 ClientTransport 接口(部分核心代码现已开源),并与 AgentScope 框架深度集成,共同构建了全新的 A2A 智能体通信基座,为多智能体应用提供企业级、高可靠的异步协同方案。
452 57
|
3月前
|
缓存 运维 监控
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
662 88
|
10月前
|
运维 Cloud Native 测试技术
极氪汽车云原生架构落地实践
随着极氪数字业务的飞速发展,背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验,并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。
|
2月前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
2750 39
|
人工智能 自然语言处理 Cloud Native
智保未来:国泰产险的 AI 网关革新之旅
国泰产险在数智化转型中,全面拥抱大模型技术,通过阿里云云原生API网关简化接入复杂性,提升数据安全性和成本管控能力。公司在外呼、客服、内容生成等业务场景深度应用大模型,解决了多模型统一接入、认证鉴权、内容安全、成本管控和审计风控五大挑战,成为保险行业数智化转型的典范。
443 14
|
3月前
|
监控 应用服务中间件 nginx
Agentic 时代必备技能:手把手为 Dify 应用构建全链路可观测系统
本文讲述 Dify 平台在 Agentic 应用开发中面临的可观测性挑战,从开发者与运维方双重视角出发,系统分析了当前 Dify 可观测能力的现状、局限与改进方向。
665 63
|
2月前
|
人工智能 自然语言处理 搜索推荐
祝贺东航首飞全球最长单程航线!通义千问和 AI 网关助力推出首个行程规划 Agent
祝贺东航首飞全球最长单程航线!通义千问和 AI 网关助力推出首个行程规划 Agent。
222 32
|
4月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
819 73

热门文章

最新文章