告别复杂接入流程:用 AI Agent Skill 驱动云监控可观测接入

简介: 对云原生与AI应用带来的接入复杂性,阿里云可观测团队将接入接口CLI化,并提供开箱即用的Skill,支持主流的APM和AI应用高效接入,用户仅需自然语言描述即可完成自动化接入,显著降低运维门槛。

作者:铖朴、珂帆


背景

随着云原生架构的普及和 AI 应用的快速增长,企业需要管理的应用类型日益丰富——从传统 Java 微服务到 AI Agent,从 Golang 后端到各类 AI 网关组件。与此同时,可观测平台的接入配置涉及一系列参数和步骤,对运维效率提出了更高要求。


阿里云云监控 CMS(CloudMonitor Service)2.0 作为阿里云统一的可观测管理平台,整合了应用监控(APM)、前端监控(RUM)、Prometheus 服务、告警管理等核心能力。为了让用户在终端环境下也能高效完成可观测接入,CMS 团队推出了 aliyun cms2 CLI 工具。更进一步,通过将 CLI 能力封装为 alibabacloud-cms-manage Skill,我们实现了基于 AI Agent 的智能化可观测接入——用户只需用自然语言描述需求,AI Agent 即可自动编排 CLI 命令完成全流程。


本文将介绍 CMS CLI 的应用接入能力,并重点演示如何通过 AI Agent Skill 实现 K8s 场景下的自动化接入。

图 1:CMS CLI + AI Agent Skill

CMS CLI 概览

aliyun cms2 是阿里云 CLI [ 1] 的子命令插件,覆盖 CMS 2.0 各模块的命令行操作:

使用前需确保环境就绪:

# 确认 CLI 已安装且版本 >= 3.3.15
$ aliyun version
3.3.20
# 验证 cms2 插件可用
$ aliyun cms2 --help
# 配置凭证(如尚未配置)
$ aliyun configure

应用接入能力

APM 与 AI 可观测

CMS CLI 的 APM 模块支持多种语言的应用接入,同时提供 ack-onepilot(K8s 容器)、手动自研探针和原生 OpenTelemetry 三种接入方式:

在 AI 可观测方面,CMS 2.0 为主流 AI 框架提供了开箱即用的接入体验:

CLI 接入流程

无论接入应用的语言和接入方式,CLI 接入均遵循以下 6 步:

图 2:CLI 6 步接入流程图


以下是各步骤的核心命令:

# Step 1: 获取账号 ID
$ aliyun sts get-caller-identity --force -o json
# → AccountId: 1108xxxxxxxxxxxx
# Step 2: 初始化 APM 基础设施(幂等)
$ aliyun cms2 apm configuration create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou
# Step 3: 获取接入凭证(LicenseKey、Endpoint 等)
$ aliyun cms2 apm configuration get \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou -o json

返回示例:

{
  "success": true,
  "data": {
    "entryPointInfo": {
      "authToken": "a]***@***************4b70",
      "privateDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou-intranet.log.aliyuncs.com",
      "project": "proj-xtrace-***-cn-hangzhou",
      "publicDomain": "proj-xtrace-***-cn-hangzhou.cn-hangzhou.log.aliyuncs.com"
    },
    "status": "Running",
    "workspace": "default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
  }
}
# Step 4: 注册应用服务
$ aliyun cms2 apm service create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --region cn-hangzhou \
    --body '{"serviceName":"my-app","serviceType":"TRACE","attributes":"{\"language\":\"java\"}"}' \
    < /dev/null
# → serviceId: a]***@*********************7f1
# Step 5: 获取接入配置模板(以 Java OTel 为例)
$ aliyun cms2 integration addon get --addon-name apm-java-batch --env-type Client -o json
# Step 6: 验证接入
$ aliyun cms2 apm service list \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou \
    --service-name my-app --region cn-hangzhou

上述流程虽然清晰,但 6 步操作、多个参数传递,对非高频使用 CLI 的运维人员来说仍有一定门槛。接下来介绍如何通过 AI Agent Skill 将这一过程简化为一句自然语言。

图 3:基于 Skill 一句话轻松搞定接入

通过 AI Agent Skill 实现智能化接入

alibabacloud-cms-manage Skill

CMS 团队将完整的 CLI 操作知识封装为开箱即用的 Skill —— alibabacloud-cms-manage [ 2] ,其核心思路是将 CLI 操作流程转化为 AI Agent 可执行的结构化工作流。用户无需记忆命令和参数,只需用自然语言描述需求即可完成接入。


Skill 覆盖以下模块:

Skill 安装与使用详见:https://skills.aliyun.com/skills/alibabacloud-cms-manage

工作机制

当用户在 Claude Code 中描述需求时,AI Agent 按以下流程工作:

图 4:Skill 智能接入工作流程图

安全机制:两阶段确认协议

对于可能影响用户集群的操作(如安装组件、Patch Deployment),Skill 严格执行两阶段确认:

只读命令(getlist)和 CMS 后端资源创建(apm configuration create)无需确认,Agent 可直接执行。

图 5:两阶段确认协议

使用效果演示:K8s 容器自动接入

以下是通过 Skill 完成 ACK 集群中 LangChain 应用自动接入的完整交互过程。ack-onepilot 通过 DaemonSet 在集群节点运行 Agent Pod,当 Deployment 标注指定 Label 后自动注入探针,无需修改应用代码或 Dockerfile


用户:

帮我把 ACK 集群里的 LangChain 应用 customer-support-agent 接入 CMS 监控


AI Agent:

检测到容器接入场景,正在获取集群信息...

$ aliyun sts get-caller-identity --force -o json
# → AccountId: 1108xxxxxxxxxxxx
$ aliyun cs describe-clusters
# → clusterId: c8d3f***********, region_id: cn-hangzhou

正在初始化 APM 基础设施并获取凭证...

$ aliyun cms2 apm configuration create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou
# → 成功
$ aliyun cms2 apm configuration get \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou -o json
# → LicenseKey: a]***@***************4b70
$ aliyun cms2 apm service create \
    --workspace default-cms-1108xxxxxxxxxxxx-cn-hangzhou --region cn-hangzhou \
    --body '{"serviceName":"customer-support-agent","serviceType":"TRACE","attributes":"{\"language\":\"python\"}"}' \
    < /dev/null
# → serviceId: a]***@*********************7f1

正在检查 ack-onepilot 组件状态...

$ kubectl get pods -n ack-onepilot
# NAME                      READY   STATUS    RESTARTS   AGE
# ack-onepilot-7d8f9        1/1     Running   0          5d

ack-onepilot 已安装且正常运行。正在查找目标 Deployment...

$ kubectl get deployment --all-namespaces | grep customer-support
# default   customer-support-agent   3/3     3    3    12d

找到目标 Deployment default/customer-support-agent(3 副本)。执行计划 — Patch K8s Deployment请确认执行(yes / no)。


用户:

yes


AI Agent:

正在执行 Patch...

$ kubectl patch deployment customer-support-agent -n default \
    --type=strategic -p '{
      "spec":{"template":{"metadata":{"labels":{
        "aliyun.com/app-language":"python",
        "armsPilotAutoEnable":"on",
        "armsPilotCreateAppName":"customer-support-agent",
        "armsPilotAppWorkspace":"default-cms-1108xxxxxxxxxxxx-cn-hangzhou"
      }}}}}'
# deployment.apps/customer-support-agent patched

正在验证滚动更新...

$ kubectl rollout status deployment/customer-support-agent -n default --timeout=120s
# deployment "customer-support-agent" successfully rolled out

接入完成!应用已通过 ack-onepilot 自动注入 Python 探针,2-3 分钟后即可在 CMS 控制台 [ 3] 看到 LLM 调用耗时、Token 使用量、Agent 链路等监控数据。


整个过程中,用户只提供了一句自然语言描述。AI Agent 自动完成了:账号获取、集群信息派生(无需手动提供 regionId)、基础设施初始化、凭证获取、服务注册、组件状态检查、Deployment 查找,并通过两阶段确认让用户审核 Patch 内容后再执行。对比手动操作需要执行的 8+ 条命令,Skill 将接入体验从“记命令、查参数、拼 JSON”简化为一句话。

图 6:K8s ack-onepilot 自动接入


如果您对 CMS CLI 或 AI Agent 驱动的可观测接入感兴趣,欢迎访问以下资源:

[1] 阿里云 CLI

https://github.com/aliyun/aliyun-cli

[2] alibabacloud-cms-manage

https://skills.aliyun.com/skills/alibabacloud-cms-manage

[3] CMS 控制台

https://cmsnext.console.aliyun.com/

[4] APM 应用监控文档

https://help.aliyun.com/zh/cms/cloudmonitor-2-0/

[5] 阿里云 CLI 安装指南

https://help.aliyun.com/zh/cli/install-update-alibaba-cloud-cli

相关文章
|
1小时前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7182 31
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1小时前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
625 140
|
1小时前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
1小时前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1158 1
|
1小时前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1221 2
|
1小时前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1296 3
|
1小时前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1043 5
|
1小时前
|
人工智能 自然语言处理 算法
|
1小时前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
853 1
|
1小时前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
404 1

热门文章

最新文章