MCP Server 之旅第 7 站:助力 MCP 打破“黑盒困境”

简介: 近期,阿里云函数计算的 Tracing 能力由 2.0 的 Jeager 升级为 OpenTelemetry 标准的 W3C 协议,实现全链路追踪能力。通过系统与业务Span融合、跨环境互通及动态成本控制,全面打破Serverless“黑盒”,提升故障定位效率,助力构建高效可观测的分布式系统。

背景

在分布式系统中,请求链路追踪(Trace) 是诊断性能瓶颈、定位故障的核心能力。近期,阿里云函数计算的 Tracing 能力由 2.0 的 Jeager 升级为 OpenTelemetry 标准的 W3C 协议,通过打通 FC 函数计算与可观测链路 OpenTelemetry 版的全链路观测能力,彻底打通了函数执行的全路径观测,这不仅让用户能够清晰、直观地透视函数内部执行细节、上下游依赖关系及整个系统的交互行为,更关键的是打破了传统 Serverless 架构中的“黑盒”困境,清晰界定函数与外部服务(云服务、自建系统等)的业务边界,从而在复杂业务场景下显著提升问题排查效率与根因定位精度。

全链路透明化

  • FC系统级span透传:将FC内部组件(如调度器、冷启动模块)的关键生命周期事件以Span形式上报,覆盖函数调用全流程(调度→初始化→执行→释放)。
  • 业务Span与系统Span自动拼接:用户自定义业务逻辑(函数代码)的Span与FC系统Span自动拼接,形成端到端Trace视图,暴露潜在性能瓶颈(如冷启动耗时、资源争抢)。

跨环境互通

  • 标准化协议支持:兼容 traceparenttracestate、baggage 等Header,确保FC函数与下游服务(如数据库、消息队列)的上下文无损传递。
  • 多环境互通:支持跨函数、跨服务、跨云厂商的Trace上下文透传,无缝集成已有OpenTelemetry生态工具链。

动态成本控制

  • 灵活的采样率控制:支持通过函数配置调整采样率(如1%低负载采样,100%故障排查采样),平衡数据量与资源开销。

使用场景

函数计算集成链路追踪后,可以快速定位 Serverless 场景下的性能瓶颈。以一个langchain作为mcp-client端,高德天气查询作为mcp-server端为例。一次查询天气的调用链路如下:可以清晰的看到冷启动信息、sse连接,message连接,以及Agent的调用信息。

分析冷启动时间,优化代码

开启链路追踪后,开发者可以在FC控制台以及链路追踪控制台查看函数执行情况,请求在函数计算的时间消耗对开发者完全透明可见。

查看冷启动时间,如果 PrepareCode 时间比预期时间长,需要精简代码包;
使用自定义运行时和自定义镜像时,函数执行环境完全由用户自定义,RuntimeInitialization 时间比预期时间长则需要优化启动代码。

快速定位异常请求根因

当有异常请求时,定位到对应trace可查看异常信息,并利用AI运维助手分析Trace。


作为分布式链路的一环,追踪链路

当函数计算作为分布式链路中的一环时,函数计算链路追踪可以串联上下游服务,看到请求在各个步骤的延时。串联mcp-client和mcp-server端。

使用Arms Python探针监控LLM应用

为LLM(Large Language Model)应用安装Python探针后,调用链分析功能将会对大模型应用的调用链信息进行分析,您可以在调用链分析页面查看大模型调用链中不同类型的Span耗时、以及Span的关联信息,例如Input、Output、Token消耗等。

效果对比

场景 升级前 升级后
冷启动耗时分析 依赖日志拼凑,无法区分系统/业务耗时 可视化Span分段,精准定位瓶颈环节
跨服务调用追踪 上下文断裂,无法关联上下游 W3C Header透传,完整链路还原

总结

通过本次升级,FC 函数计算与 OpenTelemetry 的深度融合实现了全链路透明化,覆盖从系统层到业务层的完整追踪,并基于统一的 W3C 协议标准打破数据孤岛,确保跨环境一致性。同时,动态采样策略的引入有效平衡了性能与成本,为可观测性提供经济高效的解决方案。

未来,我们计划进一步扩展无侵入式监控能力,同时持续丰富可观测诊断工具集,通过智能分析和自动化诊断功能提升故障排查效率,助力用户构建更敏捷、更智能的运维体系。

相关文章
|
6月前
|
人工智能 弹性计算 运维
亚太唯一!阿里云Serverless计算产品进入Forrester领导者象限
近日,Forrester发布《Serverless Development Platforms, Q2 2025》报告,阿里云函数计算FC与Serverless应用引擎SAE在21项评测中斩获9项最高分,成为国内唯一进入领导者象限的科技公司。
|
6月前
|
运维 监控 Cloud Native
阿里云 Serverless 重塑创蓝云智通信底座,引领行业变革
创蓝云智通过采用阿里云云原生产品矩阵,成功实现从传统架构向云原生弹性架构转型。利用Serverless应用引擎(SAE)、云原生API网关、微服务引擎(MSE)等产品,解决了资源利用率低、运维压力大等问题,显著提升系统稳定性与业务连续性,助力企业降本增效,成为云原生领域的标杆案例。
223 1
|
4月前
|
存储 人工智能 安全
函数计算进化之路:AI Sandbox 新基座
AI Agent Sandbox 是应对 AI 代理自主性风险的关键技术,提供安全隔离环境以执行代码、交互应用和处理敏感数据。它解决了三大挑战:隔离与安全、状态管理与成本、可扩展性与运维。阿里云函数计算凭借物理隔离架构、Serverless 弹性与成本优势,结合会话亲和、隔离及存储安全等创新能力,成为 AI Agent Sandbox 的理想运行时平台,助力 AI 技术安全落地与商业化发展。
|
6月前
|
设计模式 人工智能 算法
Python设计模式:从代码复用到系统架构的实践指南
本文探讨了电商系统中因支付方式扩展导致代码臃肿的问题,引出设计模式作为解决方案。通过工厂模式、策略模式、单例模式等经典设计,实现代码解耦与系统扩展性提升。结合Python语言特性,展示了模块化、装饰器、适配器等模式的实战应用,并延伸至AI时代的设计创新,帮助开发者构建高内聚、低耦合、易维护的软件系统。
371 0
|
5月前
|
运维 NoSQL Serverless
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
在轻休闲游戏流量波动大、生命周期短的背景下,传统架构难以应对成本与扩展挑战。本文介绍了基于阿里云函数计算 FC 和 Redis 构建的新一代服务器架构,实现弹性伸缩、成本优化与高效运维,助力轻休闲游戏快速迭代与稳定运营,提升开发效率并降低运维复杂度。
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
|
5月前
|
人工智能 缓存 JavaScript
Function AI 助力用户自主开发 MCP 服务,一键上云高效部署
在 AI 与云原生融合趋势下,MCP(模型上下文协议)助力开发者高效构建多模型智能应用。Function AI 提供 MCP 服务的一键上云能力,支持代码仓库绑定、OSS 上传、本地交付物及镜像部署等多种方式,实现模型服务快速集成与发布,提升开发效率与云端协同能力。
Function AI 助力用户自主开发 MCP 服务,一键上云高效部署
|
6月前
|
存储 人工智能 前端开发
全球首个搭载Kimi-K2&Qwen3-Coder的Serverless架构VibeCoding解决方案重磅来袭!
Kimi-K2模型近期表现抢眼,编程能力尤为突出,成功挑战了DeepSeek的开源模型榜首地位。其代码生成效果惊艳,配合Qwen3-Coder,展现强大开发潜力。本文介绍基于Serverless架构的VibeCoding方案,依托Function AI,实现从创意到上线的完整编码智能体解决方案,适用于个人、泛开发者及企业用户。方案支持普通与专家两种模式,AI可自主开发小游戏并构建游戏平台,具备数据库交互、多智能体协作、自动化部署等能力。部署简便,访问阿里云Function AI控制台即可快速搭建。
全球首个搭载Kimi-K2&Qwen3-Coder的Serverless架构VibeCoding解决方案重磅来袭!
|
6月前
|
人工智能 JSON 自然语言处理
Function AI 工作流发布:以 AI 重塑企业流程自动化
AI工作流正重塑企业自动化流程。Function AI工作流基于函数计算FC,融合LLM、Agent等技术,实现智能任务处理与自我优化,助力企业迈向智能流程自动化,提升效率,增强响应能力。
|
5月前
|
人工智能 自然语言处理 Serverless
Vibecoding 新体验:实测 Qwen3 Coder 代码生成效果
Qwen3 Coder 是一款强大的编程大语言模型,支持超长 1M 上下文,具备卓越的代码生成能力。结合 VibeCoding 方案,可助力开发者与企业快速构建复杂应用,实现自然语言生成系统,提升开发效率与生产力。