传统云上可观测运维高度依赖API文档、手动拼接参数、自定义脚本,整套流程重复繁琐、易出错,且缺少完整审计链路。阿里云推出云监控命令行工具aliyun cms2与配套CMS Agent Skill,把云监控全量能力封装为AI可直接调用的标准化工作流,运维人员仅通过自然语言描述业务目标,AI Agent即可自动完成场景识别、命令调用、接口执行、结果校验,构建可控、可审计、可复用的智能化运维闭环,大幅降低SRE日常重复工作成本。
一、方案核心定位与解决的运维痛点
随着云原生、微服务、容器集群规模扩张,可观测覆盖资源接入、指标采集、告警治理、链路根因、稳定性复盘全链路,人工操作成本持续攀升。传统AI辅助仅能生成脚本建议,无法直接执行云上操作,而aliyun cms2+CMS Agent Skill形成完整执行层解决方案,核心价值分为三点:
- 统一标准化执行入口:云监控2.0控制台所有功能收敛为统一CLI命令树,覆盖接入中心、Prometheus、APM、RUM、告警、事件六大模块,后续持续补充云拨测、Grafana大盘能力,一套命令覆盖全部运维操作。阿里云云监控 CLI详情👉访问阿里云百炼 CLI 页面 或
- AI原生适配设计:CLI内置完善帮助文档、结构模式查询、示例输出接口,默认精简文本输出大幅减少Token消耗;错误信息标准化JSON返回,Agent可自主识别故障并自动重试修复,无需人工干预。
- Skill驱动流程编排:将多步骤复杂运维流程固化为Skill工作流,AI无需硬编码逻辑,直接复用成熟业务流程,关键变更设置人工确认节点,兼顾自动化与操作安全。
整套体系核心逻辑为可控自动化:AI不绕过运维权限体系,所有操作通过统一CLI执行,全程记录操作链路、输入输出,满足等保内控审计要求,重复任务交给智能体,风险操作人工确认。阿里云云监控 CLI详情👉访问阿里云百炼 CLI 页面 或
阿里云部署AI Agent:OpenClaw/Hermes Agent全网最简单,只需两步,详情👉访问阿里云OpenClaw/Hermes一键部署专题页面 了解。








Token Plan Token最便宜/支持多模型切换:👉访问订阅阿里云百炼Token Plan AI大模型服务 。支持多模型切换,用于多模态模型灵活调用,实现多模型、多工具、多场景下的额度共享与统一管理,兼顾灵活性、稳定性与安全性,大幅降低企业使用大模型的门槛与成本。




二、环境前置安装与凭证配置
1. 环境依赖校验
系统需要预装Node.js 18及以上版本、阿里云通用CLI工具,终端执行校验命令:
node -v
aliyun version
版本不达标执行全局升级:
npm install -g @alicloud/cli
2. CMS Agent Skill安装
打开阿里云Agent Skills门户,找到alibabacloud-cms-manage云监控管理Skill,支持Qoder、Claude Code、Cursor、OpenClaw等主流AI客户端,分全局、项目两种安装范围。
标准安装指令:
npx skills add alibabacloud-cms-manage --skill alibabacloud-cms-manage --agent qoder -y --full-depth
安装完成重启AI Agent客户端,工具会自动检测、更新aliyun cms2插件,无需手动维护版本。验证插件可用性:
aliyun cms2 --help
3. 身份凭证配置
支持AccessKey、STS临时凭证两种模式,分为交互式新手配置与自动化非交互配置。
交互式配置(本地开发推荐):
aliyun configure
按提示依次填写密钥ID、密钥、地域编码。
CI/服务器自动化配置:
aliyun configure set \
--access-key-id YOUR_AK \
--access-key-se YOUR_SK \
--region cn-hangzhou
三、CLI完整命令树功能划分
aliyun cms2分层设计六大业务域,覆盖全可观测场景:
- 接入管理域(integration):接入策略、Prometheus存储、Grafana大盘、集群资源、采集任务、ServiceMonitor/PodMonitor、Add监控组件全生命周期管理。
- 工作空间域(workspace):多隔离观测空间创建、编辑、删除、查询,实现多业务环境数据隔离。
- Prometheus服务域:实例创建/更新、聚合视图、预聚合Recording Rule启停与删除。
- 应用监控域(apm/rum):前后端应用接入、采集配置、链路凭证管理。
- 告警事件域(alert/event-hub):告警规则、模板、历史记录,钉钉/企微/短信通知机器人、Webhook回调配置。
- 数据查询域(metric/trace/entity/meta):PromQL即时查询、基础指标时序、调用链路检索、云资源实体、指标元数据查询。
所有命令统一支持-o text精简输出、--show-schema查看参数结构、--show-example-body获取调用示例,适配AI解析需求。
四、AI Agent端到端标准工作流
完整自动化运维链路分为六步,全程自然语言驱动:
- 输入自然语言运维需求:例如“把杭州所有未接入的ACK容器集群自动完成监控接入”;
- CMS Skill匹配标准化业务工作流:Skill内置容器接入全流程逻辑,无需AI自行拆解步骤;
- Agent自动调用
aliyun cms2对应查询命令,拉取资源列表、实例状态; - 后端同步调用云监控开放API完成资源创建、组件部署;
- 执行结构化结果校验,检测采集任务、存储、大盘是否正常生效;
- 输出完整可审计文本结果,高危操作前置人工确认弹窗。
整个流程AI仅做意图识别与命令调度,实际云上操作由标准化CLI承载,操作日志完整留存用于安全审计。
五、五大核心生产实战场景
场景1:ACK容器集群批量自动接入
需求示例:帮我查询杭州地域所有未接入监控的ACK集群,自动完成全套采集部署。
Agent自动执行完整流程:
- 调用资源查询命令,拉取杭州全部ACK集群;
- 访问实体存储,过滤已完成监控接入的实例;
- 校验集群归属账号、地域等身份信息;
- 匹配容器专用Addon监控组件,读取配置模板;
- 创建集成策略,绑定对应观测工作空间;
- 下发组件发布任务,部署采集程序至集群;
- 校验存储实例、大盘、采集目标状态,输出接入报告。
同类扩展指令:按资源组接入RDS、按标签批量ECS接入、多账号AI网关统一监控。
场景2:智能告警规则治理
需求示例:分析当前容器全部告警,清理重复噪声,自动生成合理监控规则并生效。
自动化执行步骤:
- 查询当前工作空间所有存量告警规则;
- 拉取对应容器CPU、内存、网络全量指标与标签;
- 结合近7天告警数据生成优化配置;
- Dry Run预校验规则触发逻辑,避免误报;
- 创建缺失规则、修改不合理阈值;
- 输出新旧规则对比报告,关键变更人工确认后保存。
配套常用指令:查询告警历史、更换通知联系人、删除闲置规则、导出周期告警报表。
场景3:Prometheus实例与预聚合规则管理
需求示例:列出杭州全部Prometheus实例,创建5分钟CPU均值预聚合任务。
支持自动化操作:实例增删改查、多实例聚合视图搭建、Recording Rule启停、修改指标存储周期。适合大数据、容器高并发场景降低查询开销。
场景4:APM应用性能快速接入
传统AP接入需要初始化空间、获取凭证、注册服务、配置采集模板、验证链路五步复杂操作,通过Skill仅需一句自然语言,AI自动按顺序执行全部CLI命令,输出接入凭证与Java/Go/Python各类采集配置模板,大幅缩短微服务观测落地周期。
场景5:指标与链路故障排查查询
常用自然语言需求:
- 找出半小时CPU占用Top10 ECS实例;
- 查询近30秒RDS慢SQL趋势;
- 检索容器7天资源申请过剩闲置Pod;
- 追踪内存持续上涨异常Pod链路。
Agent自动调用PromQL与Trace查询命令,输出结构化故障数据,用于根因定位。
六、方案核心优势与落地价值
- 降低运维人力消耗 大量多步骤标准化工作交由AI自动执行,SRE聚焦架构优化、故障复盘等高价值工作。
- 统一审计安全体系 全部操作走CLI统一入口,完整记录指令、入参、返回结果,满足企业内控与等保合规。
- 降低AI使用门槛 无需编写复杂API调用脚本,自然语言即可完成云上资源管控,新人快速上手可观测运维。
- 跨工具通用兼容 CMS Agent Skill适配主流代码智能体,Qoder、Claude Code等工具均可无缝接入,不限制开发客户端。
- 持续能力扩展 云监控全新功能同步更新CLI与Skill,无需修改AI侧逻辑,长期平滑迭代。
七、总结
aliyun cms2云监控CLI搭配CMS Agent Skill,重构云上可观测运维工作模式,将传统“查文档、写脚本、手动操作”流程升级为“输入业务目标,AI自动编排执行”智能闭环。依托统一标准化命令入口、面向AI优化输出、固化成熟运维工作流三大核心设计,兼顾自动化效率与操作安全审计,覆盖容器、数据库、微服务、告警、指标排查全生产场景,是云原生SRE团队实现AI赋能运维稳定可靠的底层工具底座。