MCP Server 之旅第 7 站:助力 MCP 打破“黑盒困境”

本文涉及的产品
云原生网关 MSE Higress,422元/月
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 通过本次升级,FC 函数计算与 OpenTelemetry 的深度融合实现了全链路透明化,覆盖从系统层到业务层的完整追踪,并基于统一的 W3C 协议标准打破数据孤岛,确保跨环境一致性。同时,动态采样策略的引入有效平衡了性能与成本,为可观测性提供经济高效的解决方案。

1.gif


背景


在分布式系统中,请求链路追踪(Trace) 是诊断性能瓶颈、定位故障的核心能力。近期,阿里云函数计算的 Tracing 能力由 2.0 Jeager 升级为 OpenTelemetry 标准的 W3C 协议,过打通 FC 函数计算与可观测链路 OpenTelemetry 版的全链路观测能力,彻底打通了函数执行的全路径观测, 这不仅让用户能够清晰、直观地透视函数内部执行细节、上下游依赖关系及整个系统的交互行为,更关键的是打破了传统 Serverless 架构中的“黑盒”困境,清晰界定函数与外部服务(云服务、自建系统等)的业务边界,从而在复杂业务场景下显著提升问题排查效率与根因定位精度。


关键特性


1. 全链路透明化


  • FC 系统级 Span 透传将 FC 内部组件(如调度器、冷启动模块)的关键生命周期事件以 Span 形式上报,覆盖函数调用全流程(调度→初始化→执行→释放)。
  • 业务 Span 与系统 Span 自动拼接用户自定义业务逻辑(函数代码)的 Span 与 FC 系统 Span 自动拼接,形成端到端 Trace 视图,暴露潜在性能瓶颈(如冷启动耗时、资源争抢)。



2. 跨环境互通


  • 标准化协议支持兼容 traceparenttracestate、baggage 等 Header,确保 FC 函数与下游服务(如数据库、消息队列)的上下文无损传递。
  • 多环境互通支持跨函数、跨服务、跨云厂商的 Trace 上下文透传,无缝集成已有 OpenTelemetry 生态工具链。


3. 动态成本控制


  • 灵活的采样率控制支持通过函数配置调整采样率(如 1% 低负载采样,100% 故障排查采样),平衡数据量与资源开销。


使用场景


函数计算集成链路追踪后,可以快速定位 Serverless 场景下的性能瓶颈。以一个 langchain 作为 mcp-client 端,高德天气查询作为 mcp-server 端为例,一次查询天气的调用链路如下:可以清晰地看到冷启动信息、sse 连接,message 连接,以及 Agent 的调用信息。



1. 分析冷启动时间,优化代码


开启链路追踪后,开发者可以在 FC 控制台以及链路追踪控制台查看函数执行情况,请求在函数计算的时间消耗对开发者完全透明可见。


查看冷启动时间,如果 PrepareCode 时间比预期时间长,需要精简代码包;


使用自定义运行时和自定义镜像时,函数执行环境完全由用户自定义,RuntimeInitialization 时间比预期时间长则需要优化启动代码。



2. 快速定位异常请求根因


当有异常请求时,定位到对应 Trace 可查看异常信息,并利用 AI 运维助手分析 Trace。




3. 作为分布式链路的一环,追踪链路


当函数计算作为分布式链路中的一环时,函数计算链路追踪可以串联上下游服务,看到请求在各个步骤的延时。串联 mcp-client 和 mcp-server 端。



4. 使用 ARMS Python 探针监控 LLM 应用


为 LLM(Large Language Model)应用安装 Python 探针后,调用链分析功能将会对大模型应用的调用链信息进行分析,您可以在调用链分析页面查看大模型调用链中不同类型的 Span 耗时、以及 Span 的关联信息,例如 Input、Output、Token消耗等。



效果对比


场景

升级前

升级后

冷启动耗时分析

依赖日志拼凑,无法区分系统/业务耗时

可视化Span分段,精准定位瓶颈环节

跨服务调用追踪

上下文断裂,无法关联上下游

W3C Header透传,完整链路还原


总结


通过本次升级,FC 函数计算与 OpenTelemetry 的深度融合实现了全链路透明化,覆盖从系统层到业务层的完整追踪,并基于统一的 W3C 协议标准打破数据孤岛,确保跨环境一致性。同时,动态采样策略的引入有效平衡了性能与成本,为可观测性提供经济高效的解决方案。


未来,我们计划进一步扩展无侵入式监控能力,同时持续丰富可观测诊断工具集,通过智能分析和自动化诊断功能提升故障排查效率,助力用户构建更敏捷、更智能的运维体系。

相关文章
|
6天前
|
人工智能 算法 机器人
关于开展“人工智能大模型应用工程师”培训的通知
为贯彻落实《"十四五"机器人产业发展规划》和 2025年政府工作报告关于具身智能的战略部署,推进人工智能与实体经济深度融合,培育专业人才队伍,推动具身智能产业创新发展,工业和信息化部电子工业标准化研究院依据行业标准 SJ/T11805-2022《人工智能从业人员能力要求》,联合北京博创鑫鑫教育科技有限公司定于 2025年7月在广东、大连北京等地举办“人工智能大模型应用工程师”(具身智能实践案例提升与融合创新算法提升)培训,TsingtaoAI负责本次培训的交付事项。
40 12
|
8天前
|
人工智能 运维 Kubernetes
这家公司使用 MCP,已向企业交付 1000 名数字员工
君润人力是一家科技驱动的人力资源服务公司,专注于为服务业提供一站式人力资源解决方案。通过AI与数字员工技术,公司在招聘、社保等领域实现自动化服务,提升效率并降低成本。同时,君润积极探索MCP协议和Higress网关技术,构建“数字灵工”平台,推动人服行业的智能化转型。
|
13天前
|
传感器 人工智能 IDE
通义灵码用户说 | 编程智能体+MCP加持,秒查附近蜜雪冰城
通义灵码现已全面支持Qwen3,新增智能体模式,具备自主决策、环境感知、工具使用等能力,可端到端完成编码任务。支持问答、文件编辑、智能体多模式自由切换,结合MCP工具与记忆功能,提升开发效率。AI IDE重构编程流程,让开发更智能高效。
208 20
|
14天前
|
人工智能 自然语言处理 算法
编程简单了,部署依旧很难|Karpathy 演讲的 5 点解读
本文总结了 Andrej Karpathy 在 YC AI Startup School 的分享核心观点,涵盖软件发展的三个阶段、LLM 的定位与挑战、Agent 的产品工程思路以及编程与部署的未来趋势。内容适合 AI 领域从业者参考,强调通过提升工程能力实现 AI 应用的稳定性与可控性。完整视频链接附于文末,便于深入学习。
156 15
|
存储 运维 开发工具
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文探讨了日志管理中的常见反模式及其潜在问题,强调科学的日志管理策略对系统可观测性的重要性。文中分析了6种反模式:copy truncate轮转导致的日志丢失或重复、NAS/OSS存储引发的采集不一致、多进程写入造成的日志混乱、创建文件空洞释放空间的风险、频繁覆盖写带来的数据完整性问题,以及使用vim编辑日志文件导致的重复采集。针对这些问题,文章提供了最佳实践建议,如使用create模式轮转日志、本地磁盘存储、单线程追加写入等方法,以降低日志采集风险,提升系统可靠性。最后总结指出,遵循这些实践可显著提高故障排查效率和系统性能。
209 20
|
2月前
|
人工智能 Kubernetes Java
回归开源,两位 Java 和 Go 程序员分享的开源贡献指引
Higress是一个基于Istio和Envoy的云原生API网关,支持AI功能扩展。它通过Go/Rust/JS编写的Wasm插件提供可扩展架构,并包含Node和Java的console模块。Higress起源于阿里巴巴,解决了Tengine配置重载及gRPC/Dubbo负载均衡问题,现已成为阿里云API网关的基础。本文介绍Higress的基本架构、功能(如AI网关、API管理、Ingress流量网关等)、部署方式以及如何参与开源贡献。此外,还提供了有效的开源贡献指南和社区交流信息。
359 33
|
2月前
|
人工智能 Kubernetes 安全
Higress 入选全球 Top 100 MCP Servers 榜单|MCPMarket.com
MCPMarket.com 近日发布了全球 Top 100 MCP Servers 榜单,Higress 作为 MCP Hosting 方案入选。Higress 是一款开源 AI 原生 API 网关,支持 K8s 微服务架构、大模型统一代理及 MCP 快速转化等三大核心场景。此外,Higress 上线了 MCP 市场,官方维护 50+ Server,提供一键安装支持。
|
1月前
|
人工智能 Cloud Native 数据管理
邀您参加 KubeCon China 2025 分论坛 | 阿里云 AI 基础设施技术沙龙
KubeCon + CloudNativeCon China 2025 将于6月10-11日在香港合和酒店举办,由CNCF与Linux基金会联合主办。阿里云开发者将在大会上分享多个技术议题,涵盖AI模型分发、Argo工作流、Fluid数据管理等领域。大会前还有阿里云AI基础设施技术沙龙,聚焦AI基础设施及云原生技术实战经验。欢迎扫码报名参与!
264 64
|
14天前
|
人工智能 运维 Serverless
语音生成+情感复刻,Cosyvoice2.0 极简云端部署
语音合成技术正快速发展,广泛应用于智能座舱、儿童教育等领域。CosyVoice2凭借多语言生成、零样本生成等优势,成为企业优选。然而,企业仍面临GPU算力依赖、部署运维复杂及成本高等挑战。阿里云函数计算Function AI推出Serverless化语音合成方案,支持CosyVoice2一键部署与弹性扩容,简化调试与运维流程,显著降低成本,助力企业高效落地AI语音应用。
176 18