从传统API到AI运维闭环 阿里云云监控Agent Skill部署与多场景实操

简介: 云原生业务持续扩张后,资源监控、告警治理、指标查询、应用接入等运维工作的复杂度持续提升。传统运维模式依赖人工查阅接口文档、拼接API参数、手动编写脚本,大量重复步骤消耗SRE团队精力,且操作链路缺少统一审计能力。伴随AI Agent技术落地,将标准化运维工作交由智能体自动执行成为可行路径,但早期AI仅能生成脚本,无法直接操作云上可观测平台,缺少稳定、可校验的执行入口。

一、前言

云原生业务持续扩张后,资源监控、告警治理、指标查询、应用接入等运维工作的复杂度持续提升。传统运维模式依赖人工查阅接口文档、拼接API参数、手动编写脚本,大量重复步骤消耗SRE团队精力,且操作链路缺少统一审计能力。伴随AI Agent技术落地,将标准化运维工作交由智能体自动执行成为可行路径,但早期AI仅能生成脚本,无法直接操作云上可观测平台,缺少稳定、可校验的执行入口。

阿里云推出aliyun cms2云监控CLI工具与配套CMS Agent Skill,完整解决这一痛点。aliyun cms2将云监控2.0控制台全部能力收敛为标准化命令行,覆盖接入、Prometheus、APM、告警、指标查询全场景;CMS Agent Skill则把整套CLI指令封装为AI可识别的标准化工作流,智能体接收自然语言运维需求后,自动完成场景识别、参数生成、命令调用、结果校验,形成“人输入目标-AI编排执行-结果审计”的自动化运维闭环。

本文完整拆解CLI工具底层能力、Skill安装配置、全业务场景实操代码,覆盖ACK集群接入、告警管理、Prometheus运维、APM接入、指标检索五大高频运维场景,附带可直接运行终端代码、配置片段,全程无外部链接、表格、图片,无营销内容,适合运维、开发人员用于搭建AI驱动的可观测运维体系。阿里云部署AI Agent:OpenClaw/Hermes Agent全网最简单,只需两步,详情👉访问阿里云OpenClaw/Hermes一键部署专题页面 了解。
OpenClaw1.png
OpenClaw2.png
OpenClaw02.png
openClaw3.png
OpenClaw031.png
OpenClaw03.png
OpenClaw04.png
OpenClaw5.png
Openclaw6.png
Token Plan Token最便宜/支持多模型切换:👉访问订阅阿里云百炼Token Plan AI大模型服务 。支持多模型切换,用于多模态模型灵活调用,实现多模型、多工具、多场景下的额度共享与统一管理,兼顾灵活性、稳定性与安全性,大幅降低企业使用大模型的门槛与成本。
tokenplan1.png
tokenplan1.png
tokenplan2.png
tokenplan3.png
tokenplan4.png

二、传统运维模式痛点与CLI+Skill方案核心价值

2.1 传统手动运维核心短板

  1. 操作碎片化:接入集群、创建告警、查询指标需要切换控制台或调用多套API,每套接口参数规则不统一,记忆成本高。
  2. 重复脚本开发:每次新业务上线,需要重新编写API调用脚本,复用性差,出错概率高。
  3. AI执行无可信入口:普通AI生成脚本缺少权限管控、操作确认机制,直接执行存在误删规则、批量修改告警等线上风险。
  4. 缺少全链路审计:多步骤操作分散在控制台、各类脚本,无法统一记录操作人、执行时间、变更内容,故障回溯困难。
  5. 多环境适配繁琐:区分开发、测试、生产资源时,需要手动切换接口参数、账号凭证,极易出现环境串操作。

2.2 云监控CLI+Agent Skill核心优势

  1. 统一标准化入口:所有可观测操作收敛至aliyun cms2单一命令集,一套语法覆盖全部云监控能力,无需记忆多套API。
  2. AI原生适配设计:CLI内置--help--show-schema--show-example-body参数,AI可自动读取接口入参、返回样例,无需人工整理文档;输出默认精简文本格式,大幅降低Token消耗。
  3. 可控自动化流程:AI执行高危变更前可配置人工确认节点,杜绝无审核批量操作,兼顾效率与线上安全。
  4. 完整审计链路:每一条CLI调用都会记录操作日志、账号、执行参数,支持追溯所有监控规则、资源接入变更。
  5. 场景化工作流封装:CMS Agent Skill提前沉淀集群接入、告警治理等标准化流程,AI无需硬编码复杂逻辑,直接复用预置运维工作流。

三、前置环境依赖与完整安装步骤

3.1 环境硬性要求

  1. Node.js 18及以上版本,Skill安装依赖npx工具;
  2. 阿里云CLI版本3.3.15及以上,低版本不支持cms2插件;
  3. 已完成阿里云账号实名认证,账号具备云监控相关操作权限;
  4. 支持Claude Code、Cursor、Qoder等主流AI Agent客户端。

3.2 分步安装流程

3.2.1 校验基础环境

打开本地或云服务器终端,执行版本校验指令:

# 查看Node版本
node -v
# 查看阿里云CLI版本
aliyun version

若Node版本不达标,执行升级操作;若阿里云CLI版本过低,执行更新:

npm install -g @alicloud/cli

3.2.2 配置阿里云身份凭证

分为交互式配置(新手推荐)与非脚本自动化配置两种方式。
交互式配置:

aliyun configure

按提示依次输入AccessKey ID、AccessKey Secret、地域信息。
自动化脚本配置(服务器、CI环境使用):

aliyun configure set \
--access-key-id AKxxxxxx \
--access-key-se SKxxxxxx \
--region cn-hangzhou

3.3 安装CMS Agent Skill

通过npx指令拉取官方Skill包,指定适配的AI客户端,以通用Agent环境为例:

npx skills add alibabacloud-cms-manage \
--skill alibabacloud-cms-manage \
--agent qoder -y --full-depth

安装完成后重启AI Agent客户端,智能体即可识别全部云监控运维工作流。

3.4 安装并验证cms2插件

Skill会自动检测并安装cms2插件,手动校验命令可用性:

# 查看cms2完整命令树帮助文档
aliyun cms2 --help
# 启用AI适配模式,优化AI读取返回格式
aliyun configure ai-mode enable
# 设置AI调用专属UA标识,区分人工与智能体操作
aliyun configure ai-mode set-user-agent --user-agent CMS-AI-Skill-Agent

四、aliyun cms2命令整体架构分层

aliyun cms2命令按照业务域划分为五大模块,覆盖云监控2.0全部功能,各模块核心子命令如下:

  1. 接入管理域(integration):管控接入策略、Addon组件、采集任务、存储与大盘绑定;
  2. 工作空间域(workspace):创建/查询/删除隔离业务空间,区分多业务集群;
  3. 应用可观测域:prometheus实例管理、APM应用监控、R前端监控;
  4. 告警事件域(alert、event-hub):告警规则、通知渠道、历史告警查询;
  5. 数据查询域(metric、trace、meta):PromQL查询、基础指标、链路追踪、资源元数据。

4.1 基础通用参数说明

所有cms2子命令支持统一输出参数,适配AI读取:

  • -o text:精简文本输出,减少Token占用;
  • -o json:完整结构化JSON,适合程序解析;
  • --show-schema:展示当前接口入参结构,AI自动获取参数约束;
  • --show-example-body:输出标准调用样例,智能体可直接复用。

五、五大实战运维场景 AI自然语言驱动完整实操

场景一:ACK容器集群一键接入云监控

业务需求

SRE通过自然语言向AI Agent下发需求:“查询杭州地域所有未接入监控的ACK集群,自动完成指标采集组件部署,绑定默认工作空间”。

AI自动执行完整CLI流程

  1. 调用资源查询命令,筛选目标集群:
    aliyun cms2 entity query \
    --resource-type ack-cluster \
    --region cn-hangzhou -o json
    
  2. 查询现有接入策略,过滤已绑定集群:
    aliyun cms2 integration policy list --workspace default
    
  3. 创建集群接入策略,绑定Prometheus存储:
    aliyun cms2 integration policy create \
    --workspace default \
    --body '{"name":"ack-monitor-policy","storageId":"prom-storage-01"}'
    
  4. 部署ACK监控Addon组件,开启Pod/Service采集任务:
    aliyun cms2 integration addon-release create \
    --policy-name ack-monitor-policy \
    --add-type k8s-monitor
    
  5. 校验采集目标状态,确认数据上报正常:
    aliyun cms2 integration job-target list --policy-name ack-monitor-policy
    

    自然语言提示词参考

    “列出当前地域所有未接入云监控ACK集群,为每台集群创建接入策略,部署容器监控组件,绑定默认Prometheus存储,最后校验采集任务是否正常运行”

场景二:告警规则智能创建与批量治理

业务需求

向AI Agent发送指令:“梳理生产节点CPU、内存告警,补充缺失阈值规则,对不合理旧告警批量修改阈值,生成变更记录”。

配套CLI操作代码

# 查询现有全部容器告警规则
aliyun cms2 alert rule list --workspace prod-env
# 查看指标标签与可用阈值区间
aliyun cms2 meta metrics --namespace k8s-node
# 创建CPU利用率告警规则
aliyun cms2 alert rule create \
--workspace prod-env \
--body '{
  "metric":"node_cpu_util",
  "threshold":85,
  "cycle":"60",
  "contactGroup":"sre-group"
}'
# 批量更新内存告警阈值
aliyun cms2 alert rule patch \
--rule-id rule_001 \
--body '{"threshold":90}'
# 查看近7天告警触发历史,验证规则有效性
aliyun cms2 alert history list --range 7d

场景化提示词

“分析当前生产工作空间下所有节点告警,补齐CPU、内存缺失监控规则,原有告警阈值过低的统一调整至85/90,查询一周告警历史确认规则生效”

场景三:Prometheus实例与预聚合规则运维

业务需求

自然语言指令:“查看杭州所有Prometheus实例,为业务节点新增5分钟CPU平均预聚合规则,修改存储时长90天”

可执行CLI代码

# 查询全部Prometheus实例
aliyun cms2 prom instance list --region cn-hangzhou
# 修改实例数据存储周期
aliyun cms2 prom instance update \
--instance-id prom_01 \
--body '{"storeDays":90}'
# 创建CPU预聚合RecordingRule
aliyun cms2 prom recording-rule create \
--instance-id prom_01 \
--name node_cpu_avg_5m \
--expr avg_over_time(node_cpu_util[5m])
# 启停聚合任务
aliyun cms2 prom recording-rule stop --name node_cpu_avg_5m

场景四:APM应用性能监控自动化接入

微服务新应用上线,AI自动完成工作空间创建、应用注册、接入凭证下发整套流程:

# 创建专属应用工作空间
aliyun cms2 workspace create --name app-business
# 注册APM应用服务
aliyun cms2 apm service create \
--workspace app-business \
--body '{"serviceName":"user-service","language":"java"}'
# 获取接入License凭证
aliyun cms2 apm configuration get --service-name user-service

场景五:指标与链路数据查询排查故障

线上服务卡顿,通过AI下发查询需求,检索半小时高CPU ECS实例、慢SQL链路:

# 检索半小时CPU Top10实例
aliyun cms metric basic top \
--metric CPUUtilization \
--range 30m --top 10
# PromQL查询容器内存持续增长Pod
aliyun cms metric promql query-range \
--expr container_memory_usage > 0.9 \
--start 30m-ago --end now
# 查询慢调用Trace链路
aliyun cms trace search --duration 1000ms

六、CMS Agent Skill AI完整调用示例

以通用AI Agent客户端交互为例,展示自然语言到后台CLI执行完整闭环,附带Python调用封装代码,可集成自研智能体。

6.1 AI对话交互示例

用户输入:
“在cn-hangzhou区域,查找标签业务组=payment的所有ECS,统一接入默认工作空间云监控,创建磁盘使用率告警,阈值90”
AI自动拆解执行步骤:

  1. 调用entity query筛选带指定标签ECS资源;
  2. 调用integration policy创建资源接入策略;
  3. 批量生成磁盘指标告警规则;
  4. 执行metric查询验证指标上报;
  5. 汇总全部操作结果,输出变更审计清单。

6.2 Python封装调用代码(适配自研Agent)

import subprocess
import json

def run_cms_command(cmd_list):
    """封装cms2命令执行,返回结构化结果"""
    result = subprocess.run(
        cmd_list,
        capture_output=True,
        text=True
    )
    if result.returncode != 0:
        return {
   "success": False, "error": result.stderr}
    try:
        return json.loads(result.stdout)
    except:
        return {
   "success": True, "data": result.stdout}

# 示例:查询区域ACK集群
if __name__ == "__main__":
    res = run_cms_command([
        "aliyun", "cms2", "entity", "query",
        "--resource-type", "ack-cluster",
        "--region", "cn-hangzhou",
        "-o", "json"
    ])
    print("集群查询结果:", res)

七、权限、审计与生产环境安全规范

  1. 账号权限管控:RAM子账号仅分配最小云监控操作权限,禁止赋予全量删除规则权限;
  2. AI操作确认机制:高危操作(批量删除告警、清空采集任务)在Skill中配置人工确认节点,未确认不执行CLI变更;
  3. 操作审计留存:所有aliyun cms2执行记录自动留存,可通过CLI查询历史操作:
    aliyun cms event-hub list --range 30d
    
  4. 凭证隔离:生产、测试环境使用独立AccessKey,避免一套凭证操作多环境;
  5. 输出日志落地:将AI执行的CLI结果输出至本地日志文件,用于故障复盘。

八、常见故障排查方案

故障1:执行cms2提示插件未找到

解决:更新阿里云CLI,重新安装插件

npm install -g @alicloud/cli
aliyun plugin update

故障2:AI Skill无法识别cms2命令

解决:确认Node版本≥18,重新安装Skill并重启Agent客户端

npx skills remove alibabacloud-cms-manage
npx skills add alibabacloud-cms-manage -y

故障3:执行命令返回权限拒绝

解决:登录RAM控制台,为当前账号授予云监控读写权限,重新配置凭证。

故障4:PromQL查询无指标数据

解决:检查集群Addon组件是否正常运行,执行任务列表命令查看采集状态

aliyun cms2 integration job-target list

九、总结

aliyun cms2云监控CLI搭配CMS Agent Skill,重构了传统可观测运维的工作模式,把分散的控制台、API操作收敛为统一命令行入口,同时通过标准化Skill工作流赋予AI Agent安全、可控的云上操作能力。整套体系解决了重复脚本编写、操作碎片化、AI执行无审计、多环境串操作等运维痛点,覆盖容器接入、告警治理、Prometheus运维、APM监控、故障指标检索全部核心场景。

运维人员仅需要输入自然语言描述业务目标,AI即可自动完成多步骤CLI编排、参数填充、变更校验,大幅降低重复性工作。同时完整的操作审计、权限隔离、人工确认机制保障线上生产环境安全,不会因AI自动操作引发故障。随着后续版本迭代,该套件会持续扩充云监控全量能力,逐步实现全链路AI驱动自动化可观测运维,释放SRE团队精力投入架构优化、故障复盘等高价值工作。

目录
相关文章
|
6天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
7天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
737 7
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
7天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
720 6
|
7天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
7天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
751 148
|
7天前
|
JSON 缓存 安全
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
CC Switch 通过本地路由(`127.0.0.1:15721`)实现协议转换:将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口,兼容流式响应与工具调用,无需修改 Codex 源码,安全隔离 API Key。(239字)
1894 3
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
|
7天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
600 2
|
7天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
1982 10
|
7天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
830 1

热门文章

最新文章