MCP Server 之旅第 7 站:助力 MCP 打破“黑盒困境”

简介: 通过本次升级,FC 函数计算与 OpenTelemetry 的深度融合实现了全链路透明化,覆盖从系统层到业务层的完整追踪,并基于统一的 W3C 协议标准打破数据孤岛,确保跨环境一致性。同时,动态采样策略的引入有效平衡了性能与成本,为可观测性提供经济高效的解决方案。

1.gif


背景


在分布式系统中,请求链路追踪(Trace) 是诊断性能瓶颈、定位故障的核心能力。近期,阿里云函数计算的 Tracing 能力由 2.0 Jeager 升级为 OpenTelemetry 标准的 W3C 协议,过打通 FC 函数计算与可观测链路 OpenTelemetry 版的全链路观测能力,彻底打通了函数执行的全路径观测, 这不仅让用户能够清晰、直观地透视函数内部执行细节、上下游依赖关系及整个系统的交互行为,更关键的是打破了传统 Serverless 架构中的“黑盒”困境,清晰界定函数与外部服务(云服务、自建系统等)的业务边界,从而在复杂业务场景下显著提升问题排查效率与根因定位精度。


关键特性


1. 全链路透明化


  • FC 系统级 Span 透传将 FC 内部组件(如调度器、冷启动模块)的关键生命周期事件以 Span 形式上报,覆盖函数调用全流程(调度→初始化→执行→释放)。
  • 业务 Span 与系统 Span 自动拼接用户自定义业务逻辑(函数代码)的 Span 与 FC 系统 Span 自动拼接,形成端到端 Trace 视图,暴露潜在性能瓶颈(如冷启动耗时、资源争抢)。



2. 跨环境互通


  • 标准化协议支持兼容 traceparenttracestate、baggage 等 Header,确保 FC 函数与下游服务(如数据库、消息队列)的上下文无损传递。
  • 多环境互通支持跨函数、跨服务、跨云厂商的 Trace 上下文透传,无缝集成已有 OpenTelemetry 生态工具链。


3. 动态成本控制


  • 灵活的采样率控制支持通过函数配置调整采样率(如 1% 低负载采样,100% 故障排查采样),平衡数据量与资源开销。


使用场景


函数计算集成链路追踪后,可以快速定位 Serverless 场景下的性能瓶颈。以一个 langchain 作为 mcp-client 端,高德天气查询作为 mcp-server 端为例,一次查询天气的调用链路如下:可以清晰地看到冷启动信息、sse 连接,message 连接,以及 Agent 的调用信息。



1. 分析冷启动时间,优化代码


开启链路追踪后,开发者可以在 FC 控制台以及链路追踪控制台查看函数执行情况,请求在函数计算的时间消耗对开发者完全透明可见。


查看冷启动时间,如果 PrepareCode 时间比预期时间长,需要精简代码包;


使用自定义运行时和自定义镜像时,函数执行环境完全由用户自定义,RuntimeInitialization 时间比预期时间长则需要优化启动代码。



2. 快速定位异常请求根因


当有异常请求时,定位到对应 Trace 可查看异常信息,并利用 AI 运维助手分析 Trace。




3. 作为分布式链路的一环,追踪链路


当函数计算作为分布式链路中的一环时,函数计算链路追踪可以串联上下游服务,看到请求在各个步骤的延时。串联 mcp-client 和 mcp-server 端。



4. 使用 ARMS Python 探针监控 LLM 应用


为 LLM(Large Language Model)应用安装 Python 探针后,调用链分析功能将会对大模型应用的调用链信息进行分析,您可以在调用链分析页面查看大模型调用链中不同类型的 Span 耗时、以及 Span 的关联信息,例如 Input、Output、Token消耗等。



效果对比


场景

升级前

升级后

冷启动耗时分析

依赖日志拼凑,无法区分系统/业务耗时

可视化Span分段,精准定位瓶颈环节

跨服务调用追踪

上下文断裂,无法关联上下游

W3C Header透传,完整链路还原


总结


通过本次升级,FC 函数计算与 OpenTelemetry 的深度融合实现了全链路透明化,覆盖从系统层到业务层的完整追踪,并基于统一的 W3C 协议标准打破数据孤岛,确保跨环境一致性。同时,动态采样策略的引入有效平衡了性能与成本,为可观测性提供经济高效的解决方案。


未来,我们计划进一步扩展无侵入式监控能力,同时持续丰富可观测诊断工具集,通过智能分析和自动化诊断功能提升故障排查效率,助力用户构建更敏捷、更智能的运维体系。

相关文章
|
消息中间件 存储 架构师
架构师一口气说透分布式数据一致性问题
架构师一口气说透分布式数据一致性问题
|
存储 XML JSON
consul 简易上手指南
consul 是一个用来做服务发现的框架,具有分布式、高可用以及可横向扩展的特性
|
人工智能 Java Serverless
【MCP教程系列】搭建基于 Spring AI 的 SSE 模式 MCP 服务并自定义部署至阿里云百炼
本文详细介绍了如何基于Spring AI搭建支持SSE模式的MCP服务,并成功集成至阿里云百炼大模型平台。通过四个步骤实现从零到Agent的构建,包括项目创建、工具开发、服务测试与部署。文章还提供了具体代码示例和操作截图,帮助读者快速上手。最终,将自定义SSE MCP服务集成到百炼平台,完成智能体应用的创建与测试。适合希望了解SSE实时交互及大模型集成的开发者参考。
13734 60
|
9月前
|
人工智能 缓存 Serverless
MCP Server 实践之旅第 3 站:MCP 协议亲和性的技术解析
本文将以 MCP Server 在函数计算平台的深度集成为研究载体,解构基于 SSE 长连接通信模型,剖析会话亲和、优雅升级等关键技术,揭示 Serverless 架构在 MCP 场景中的亲和性创新实践。
729 12
|
11月前
|
人工智能 自然语言处理 Java
对话即服务:Spring Boot整合MCP让你的CRUD系统秒变AI助手
本文介绍了如何通过Model Context Protocol (MCP) 协议将传统Spring Boot服务改造为支持AI交互的智能系统。MCP作为“万能适配器”,让AI以统一方式与多种服务和数据源交互,降低开发复杂度。文章以图书管理服务为例,详细说明了引入依赖、配置MCP服务器、改造服务方法(注解方式或函数Bean方式)及接口测试的全流程。最终实现用户通过自然语言查询数据库的功能,展示了MCP在简化AI集成、提升系统易用性方面的价值。未来,“对话即服务”有望成为主流开发范式。
7904 7
|
Arthas 监控 Java
拥抱 OpenTelemetry:阿里云 Java Agent 演进实践
本文介绍了阿里云 Java Agent 4.x 版本在基于 OTel Java Agent 二次开发过程中的实践与思考,并重点从功能、性能、稳定性、兼容性四个方面介绍了所做的工作。同时也介绍了阿里云可观测团队积极参与开源建设取得的丰厚成果。
1308 110
拥抱 OpenTelemetry:阿里云 Java Agent 演进实践
|
7月前
|
人工智能 算法 机器人
关于开展“人工智能大模型应用工程师”培训的通知
为贯彻落实《"十四五"机器人产业发展规划》和 2025年政府工作报告关于具身智能的战略部署,推进人工智能与实体经济深度融合,培育专业人才队伍,推动具身智能产业创新发展,工业和信息化部电子工业标准化研究院依据行业标准 SJ/T11805-2022《人工智能从业人员能力要求》,联合北京博创鑫鑫教育科技有限公司定于 2025年7月在广东、大连北京等地举办“人工智能大模型应用工程师”(具身智能实践案例提升与融合创新算法提升)培训,TsingtaoAI负责本次培训的交付事项。
308 12
|
7月前
|
设计模式 人工智能 自然语言处理
AI生成的Logo版权归谁?
AI 生成 Logo 已成为设计领域的重要应用,广泛用于个人品牌和商业场景。本文分析了 AI 生成 Logo 的版权归属问题,结合国内外法律案例指出,用户若深度参与创作,如精心设计提示词、调整参数等,可主张著作权。同时介绍了多个主流 AI Logo 工具的版权规则,并提供确保版权与商用安全的实用技巧,包括审查授权条款、优化创作过程及商标注册建议。
478 5
|
8月前
|
存储 安全 物联网
RFID技术让车辆与道闸实现无缝对接
RFID技术通过自动识别车辆信息,实现道闸系统的高效联动,大幅提升通行效率与安全管理。广泛应用于停车场、园区等场所,具备远距离识别、无感通行、权限管理等功能,显著降低人工成本,提升智能化管理水平。
|
Prometheus Cloud Native Java
OpenTelemetry: 经得起考验的工具
OpenTelemetry: 经得起考验的工具
2249 2