从传统API到AI运维闭环阿里云云监控Agent Skill部署与多场景实操-阿里云开发者社区

一、前言

云原生业务持续扩张后，资源监控、告警治理、指标查询、应用接入等运维工作的复杂度持续提升。传统运维模式依赖人工查阅接口文档、拼接API参数、手动编写脚本，大量重复步骤消耗SRE团队精力，且操作链路缺少统一审计能力。伴随AI Agent技术落地，将标准化运维工作交由智能体自动执行成为可行路径，但早期AI仅能生成脚本，无法直接操作云上可观测平台，缺少稳定、可校验的执行入口。

阿里云推出aliyun cms2云监控CLI工具与配套CMS Agent Skill，完整解决这一痛点。aliyun cms2将云监控2.0控制台全部能力收敛为标准化命令行，覆盖接入、Prometheus、APM、告警、指标查询全场景；CMS Agent Skill则把整套CLI指令封装为AI可识别的标准化工作流，智能体接收自然语言运维需求后，自动完成场景识别、参数生成、命令调用、结果校验，形成“人输入目标-AI编排执行-结果审计”的自动化运维闭环。

本文完整拆解CLI工具底层能力、Skill安装配置、全业务场景实操代码，覆盖ACK集群接入、告警管理、Prometheus运维、APM接入、指标检索五大高频运维场景，附带可直接运行终端代码、配置片段，全程无外部链接、表格、图片，无营销内容，适合运维、开发人员用于搭建AI驱动的可观测运维体系。阿里云部署AI Agent：OpenClaw/Hermes Agent全网最简单，只需两步，详情👉访问阿里云OpenClaw/Hermes一键部署专题页面 了解。

Token Plan Token最便宜/支持多模型切换：👉访问订阅阿里云百炼Token Plan AI大模型服务 。支持多模型切换，用于多模态模型灵活调用，实现多模型、多工具、多场景下的额度共享与统一管理，兼顾灵活性、稳定性与安全性，大幅降低企业使用大模型的门槛与成本。

二、传统运维模式痛点与CLI+Skill方案核心价值

2.1 传统手动运维核心短板

操作碎片化：接入集群、创建告警、查询指标需要切换控制台或调用多套API，每套接口参数规则不统一，记忆成本高。
重复脚本开发：每次新业务上线，需要重新编写API调用脚本，复用性差，出错概率高。
AI执行无可信入口：普通AI生成脚本缺少权限管控、操作确认机制，直接执行存在误删规则、批量修改告警等线上风险。
缺少全链路审计：多步骤操作分散在控制台、各类脚本，无法统一记录操作人、执行时间、变更内容，故障回溯困难。
多环境适配繁琐：区分开发、测试、生产资源时，需要手动切换接口参数、账号凭证，极易出现环境串操作。

2.2 云监控CLI+Agent Skill核心优势

统一标准化入口：所有可观测操作收敛至aliyun cms2单一命令集，一套语法覆盖全部云监控能力，无需记忆多套API。
AI原生适配设计：CLI内置--help、--show-schema、--show-example-body参数，AI可自动读取接口入参、返回样例，无需人工整理文档；输出默认精简文本格式，大幅降低Token消耗。
可控自动化流程：AI执行高危变更前可配置人工确认节点，杜绝无审核批量操作，兼顾效率与线上安全。
完整审计链路：每一条CLI调用都会记录操作日志、账号、执行参数，支持追溯所有监控规则、资源接入变更。
场景化工作流封装：CMS Agent Skill提前沉淀集群接入、告警治理等标准化流程，AI无需硬编码复杂逻辑，直接复用预置运维工作流。

三、前置环境依赖与完整安装步骤

3.1 环境硬性要求

Node.js 18及以上版本，Skill安装依赖npx工具；
阿里云CLI版本3.3.15及以上，低版本不支持cms2插件；
已完成阿里云账号实名认证，账号具备云监控相关操作权限；
支持Claude Code、Cursor、Qoder等主流AI Agent客户端。

3.2 分步安装流程

3.2.1 校验基础环境

打开本地或云服务器终端，执行版本校验指令：

# 查看Node版本
node -v
# 查看阿里云CLI版本
aliyun version

若Node版本不达标，执行升级操作；若阿里云CLI版本过低，执行更新：

npm install -g @alicloud/cli

3.2.2 配置阿里云身份凭证

分为交互式配置（新手推荐）与非脚本自动化配置两种方式。
交互式配置：

aliyun configure

按提示依次输入AccessKey ID、AccessKey Secret、地域信息。
自动化脚本配置（服务器、CI环境使用）：

aliyun configure set \
--access-key-id AKxxxxxx \
--access-key-se SKxxxxxx \
--region cn-hangzhou

3.3 安装CMS Agent Skill

通过npx指令拉取官方Skill包，指定适配的AI客户端，以通用Agent环境为例：

npx skills add alibabacloud-cms-manage \
--skill alibabacloud-cms-manage \
--agent qoder -y --full-depth

安装完成后重启AI Agent客户端，智能体即可识别全部云监控运维工作流。

3.4 安装并验证cms2插件

Skill会自动检测并安装cms2插件，手动校验命令可用性：

# 查看cms2完整命令树帮助文档
aliyun cms2 --help
# 启用AI适配模式，优化AI读取返回格式
aliyun configure ai-mode enable
# 设置AI调用专属UA标识，区分人工与智能体操作
aliyun configure ai-mode set-user-agent --user-agent CMS-AI-Skill-Agent

四、aliyun cms2命令整体架构分层

aliyun cms2命令按照业务域划分为五大模块，覆盖云监控2.0全部功能，各模块核心子命令如下：

接入管理域（integration）：管控接入策略、Addon组件、采集任务、存储与大盘绑定；
工作空间域（workspace）：创建/查询/删除隔离业务空间，区分多业务集群；
应用可观测域：prometheus实例管理、APM应用监控、R前端监控；
告警事件域（alert、event-hub）：告警规则、通知渠道、历史告警查询；
数据查询域（metric、trace、meta）：PromQL查询、基础指标、链路追踪、资源元数据。

4.1 基础通用参数说明

所有cms2子命令支持统一输出参数，适配AI读取：

-o text：精简文本输出，减少Token占用；
-o json：完整结构化JSON，适合程序解析；
--show-schema：展示当前接口入参结构，AI自动获取参数约束；
--show-example-body：输出标准调用样例，智能体可直接复用。

五、五大实战运维场景 AI自然语言驱动完整实操

场景一：ACK容器集群一键接入云监控

业务需求

SRE通过自然语言向AI Agent下发需求：“查询杭州地域所有未接入监控的ACK集群，自动完成指标采集组件部署，绑定默认工作空间”。

AI自动执行完整CLI流程

调用资源查询命令，筛选目标集群：

aliyun cms2 entity query \
--resource-type ack-cluster \
--region cn-hangzhou -o json

查询现有接入策略，过滤已绑定集群：

aliyun cms2 integration policy list --workspace default

创建集群接入策略，绑定Prometheus存储：

aliyun cms2 integration policy create \
--workspace default \
--body '{"name":"ack-monitor-policy","storageId":"prom-storage-01"}'

部署ACK监控Addon组件，开启Pod/Service采集任务：

aliyun cms2 integration addon-release create \
--policy-name ack-monitor-policy \
--add-type k8s-monitor

校验采集目标状态，确认数据上报正常：
```
aliyun cms2 integration job-target list --policy-name ack-monitor-policy
```
自然语言提示词参考
“列出当前地域所有未接入云监控ACK集群，为每台集群创建接入策略，部署容器监控组件，绑定默认Prometheus存储，最后校验采集任务是否正常运行”

场景二：告警规则智能创建与批量治理

业务需求

向AI Agent发送指令：“梳理生产节点CPU、内存告警，补充缺失阈值规则，对不合理旧告警批量修改阈值，生成变更记录”。

配套CLI操作代码

# 查询现有全部容器告警规则
aliyun cms2 alert rule list --workspace prod-env
# 查看指标标签与可用阈值区间
aliyun cms2 meta metrics --namespace k8s-node
# 创建CPU利用率告警规则
aliyun cms2 alert rule create \
--workspace prod-env \
--body '{
  "metric":"node_cpu_util",
  "threshold":85,
  "cycle":"60",
  "contactGroup":"sre-group"
}'
# 批量更新内存告警阈值
aliyun cms2 alert rule patch \
--rule-id rule_001 \
--body '{"threshold":90}'
# 查看近7天告警触发历史，验证规则有效性
aliyun cms2 alert history list --range 7d

场景化提示词

“分析当前生产工作空间下所有节点告警，补齐CPU、内存缺失监控规则，原有告警阈值过低的统一调整至85/90，查询一周告警历史确认规则生效”

场景三：Prometheus实例与预聚合规则运维

业务需求

自然语言指令：“查看杭州所有Prometheus实例，为业务节点新增5分钟CPU平均预聚合规则，修改存储时长90天”

可执行CLI代码

# 查询全部Prometheus实例
aliyun cms2 prom instance list --region cn-hangzhou
# 修改实例数据存储周期
aliyun cms2 prom instance update \
--instance-id prom_01 \
--body '{"storeDays":90}'
# 创建CPU预聚合RecordingRule
aliyun cms2 prom recording-rule create \
--instance-id prom_01 \
--name node_cpu_avg_5m \
--expr avg_over_time(node_cpu_util[5m])
# 启停聚合任务
aliyun cms2 prom recording-rule stop --name node_cpu_avg_5m

场景四：APM应用性能监控自动化接入

微服务新应用上线，AI自动完成工作空间创建、应用注册、接入凭证下发整套流程：

# 创建专属应用工作空间
aliyun cms2 workspace create --name app-business
# 注册APM应用服务
aliyun cms2 apm service create \
--workspace app-business \
--body '{"serviceName":"user-service","language":"java"}'
# 获取接入License凭证
aliyun cms2 apm configuration get --service-name user-service

场景五：指标与链路数据查询排查故障

线上服务卡顿，通过AI下发查询需求，检索半小时高CPU ECS实例、慢SQL链路：

# 检索半小时CPU Top10实例
aliyun cms metric basic top \
--metric CPUUtilization \
--range 30m --top 10
# PromQL查询容器内存持续增长Pod
aliyun cms metric promql query-range \
--expr container_memory_usage > 0.9 \
--start 30m-ago --end now
# 查询慢调用Trace链路
aliyun cms trace search --duration 1000ms

六、CMS Agent Skill AI完整调用示例

以通用AI Agent客户端交互为例，展示自然语言到后台CLI执行完整闭环，附带Python调用封装代码，可集成自研智能体。

6.1 AI对话交互示例

用户输入：
“在cn-hangzhou区域，查找标签业务组=payment的所有ECS，统一接入默认工作空间云监控，创建磁盘使用率告警，阈值90”
AI自动拆解执行步骤：

调用entity query筛选带指定标签ECS资源；
调用integration policy创建资源接入策略；
批量生成磁盘指标告警规则；
执行metric查询验证指标上报；
汇总全部操作结果，输出变更审计清单。

6.2 Python封装调用代码（适配自研Agent）

import subprocess
import json

def run_cms_command(cmd_list):
    """封装cms2命令执行，返回结构化结果"""
    result = subprocess.run(
        cmd_list,
        capture_output=True,
        text=True
    )
    if result.returncode != 0:
        return {
   "success": False, "error": result.stderr}
    try:
        return json.loads(result.stdout)
    except:
        return {
   "success": True, "data": result.stdout}

# 示例：查询区域ACK集群
if __name__ == "__main__":
    res = run_cms_command([
        "aliyun", "cms2", "entity", "query",
        "--resource-type", "ack-cluster",
        "--region", "cn-hangzhou",
        "-o", "json"
    ])
    print("集群查询结果：", res)

七、权限、审计与生产环境安全规范

账号权限管控：RAM子账号仅分配最小云监控操作权限，禁止赋予全量删除规则权限；
AI操作确认机制：高危操作（批量删除告警、清空采集任务）在Skill中配置人工确认节点，未确认不执行CLI变更；
操作审计留存：所有aliyun cms2执行记录自动留存，可通过CLI查询历史操作：
```
aliyun cms event-hub list --range 30d
```
凭证隔离：生产、测试环境使用独立AccessKey，避免一套凭证操作多环境；
输出日志落地：将AI执行的CLI结果输出至本地日志文件，用于故障复盘。

八、常见故障排查方案

故障1：执行cms2提示插件未找到

解决：更新阿里云CLI，重新安装插件

npm install -g @alicloud/cli
aliyun plugin update

故障2：AI Skill无法识别cms2命令

解决：确认Node版本≥18，重新安装Skill并重启Agent客户端

npx skills remove alibabacloud-cms-manage
npx skills add alibabacloud-cms-manage -y

故障3：执行命令返回权限拒绝

解决：登录RAM控制台，为当前账号授予云监控读写权限，重新配置凭证。

故障4：PromQL查询无指标数据

解决：检查集群Addon组件是否正常运行，执行任务列表命令查看采集状态

aliyun cms2 integration job-target list

九、总结

aliyun cms2云监控CLI搭配CMS Agent Skill，重构了传统可观测运维的工作模式，把分散的控制台、API操作收敛为统一命令行入口，同时通过标准化Skill工作流赋予AI Agent安全、可控的云上操作能力。整套体系解决了重复脚本编写、操作碎片化、AI执行无审计、多环境串操作等运维痛点，覆盖容器接入、告警治理、Prometheus运维、APM监控、故障指标检索全部核心场景。

运维人员仅需要输入自然语言描述业务目标，AI即可自动完成多步骤CLI编排、参数填充、变更校验，大幅降低重复性工作。同时完整的操作审计、权限隔离、人工确认机制保障线上生产环境安全，不会因AI自动操作引发故障。随着后续版本迭代，该套件会持续扩充云监控全量能力，逐步实现全链路AI驱动自动化可观测运维，释放SRE团队精力投入架构优化、故障复盘等高价值工作。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从传统API到AI运维闭环 阿里云云监控Agent Skill部署与多场景实操

一、前言

二、传统运维模式痛点与CLI+Skill方案核心价值

2.1 传统手动运维核心短板

2.2 云监控CLI+Agent Skill核心优势

三、前置环境依赖与完整安装步骤

3.1 环境硬性要求

3.2 分步安装流程

3.2.1 校验基础环境

3.2.2 配置阿里云身份凭证

3.3 安装CMS Agent Skill

3.4 安装并验证cms2插件

四、aliyun cms2命令整体架构分层

4.1 基础通用参数说明

五、五大实战运维场景 AI自然语言驱动完整实操

场景一：ACK容器集群一键接入云监控

业务需求

AI自动执行完整CLI流程

自然语言提示词参考

场景二：告警规则智能创建与批量治理

业务需求

配套CLI操作代码

场景化提示词

场景三：Prometheus实例与预聚合规则运维

业务需求

可执行CLI代码

场景四：APM应用性能监控自动化接入

场景五：指标与链路数据查询排查故障

六、CMS Agent Skill AI完整调用示例

6.1 AI对话交互示例

6.2 Python封装调用代码（适配自研Agent）

七、权限、审计与生产环境安全规范

八、常见故障排查方案

故障1：执行cms2提示插件未找到

故障2：AI Skill无法识别cms2命令

故障3：执行命令返回权限拒绝

故障4：PromQL查询无指标数据

九、总结

热门文章

最新文章

相关电子书

从传统API到AI运维闭环阿里云云监控Agent Skill部署与多场景实操