PolarDB 团队将积累的数据库运维专家经验与 LLM 推理能力结合,构建了 PolarDB AI 助手。更进一步,团队将这一能力封装为标准化的 Agent Skill ——alibabacloud-polardb-ai-assistant,发布在阿里云 Agent Skills 门户,使其可以被任何兼容的 AI Agent 客户端加载调用,真正让数据库智能运维能力融入开发者的日常工作流。
该 Skill 专注于阿里云 PolarDB MySQL 和 PostgreSQL 数据库的智能运维,通过 Aliyun CLI 的 DAS 插件调用 get-yao-chi-agent API 来执行诊断和分析。
01、技术架构:从自然语言到智能诊断
PolarDB AI 助手 Skill 的技术架构可以概括为一条清晰的调用链路:
Aliyun CLI → DAS Plugin (Signature V3) → get-yao-chi-agent API → PolarDB 智能诊断。
这条链路的设计哲学是「让 AI Agent 像 DBA 一样思考和操作」:
- 交互层:用户在 AI Agent 客户端中用自然语言描述运维需求。Skill 接收自然语言输入,不要求用户记忆 API 参数或命令格式。支持多轮对话,可以逐步深入分析复杂问题。
- 调用层:通过 Aliyun CLI 的 DAS 插件发起 API 调用,采用 Signature V3 签名机制确保传输安全。核心封装脚本 call_yaochi_agent.sh 处理流式响应解析,屏蔽了底层通信细节。
- 引擎层:PolarDB 智能诊断引擎融合了 PolarDB 产品的专家知识库与大语言模型推理能力。它不是通用的 ChatBot,而是深度理解 PolarDB 内核架构(读写分离、IMCI 列存、Serverless 弹性、代理层路由等)的垂直领域 AI。
- 数据层:引擎通过安全的内部通道读取集群元数据、实时监控指标、慢 SQL 日志、拓扑信息等,所有数据访问严格遵循 RAM 权限体系。Skill 本身只做查询和诊断,不执行任何 DDL/DML 操作。
02、核心能力:覆盖 20+ 运维技能域
该 Skill 覆盖了 PolarDB 日常运维的绝大多数场景,按功能域划分为以下核心能力:
- 性能诊断与优化
集群性能监控(QPS/TPS/连接数/吞吐量等核心指标分析)、慢 SQL 分析(执行计划解析、索引建议、改写方案)、存储使用诊断(容量增长趋势、空间优化建议)、代理性能监控(Proxy 层指标分析、连接路由诊断)。
- 故障排查与诊断
主备切换分析(Failover 原因排查、切换日志分析、非预期切换诊断)、连接和会话分析(连接数监控、会话问题排查、连接池优化)、日志诊断(错误日志分析、慢日志排查)、实例状态检查(健康状态、运行状态验证)。
- 参数与配置管理
内核参数解释(参数含义、配置建议、性能影响分析)、内核参数变更评估(修改前的影响评估、变更风险分析)、IMCI 列存参数解释、Serverless 弹性配置。
- 安全与合规
安全配置审计(白名单、SSL、安全策略审计)、备份状态检查(备份完成情况、保留策略、恢复时间点)、高可用与灾难恢复(HA 配置评估、灾备架构诊断)、自增 ID 溢出检测(主键溢出预警)。
- 资产与生命周期管理
实例查询过滤、内核版本诊断(代理层/实例层)、即将到期实例查询。
03、解决了哪些实际问题
以下是几个典型的客户场景:
场景一:突发性能告警的快速响应
凌晨收到集群 CPU 飙升告警。传统做法是登录控制台 → 找到集群 → 查看监控 → 翻慢日志 → 分析 SQL。使用 Skill 后,直接输入「分析集群 pc-xxx 最近一小时的性能问题」,系统自动拉取监控、慢 SQL、活跃会话等数据,输出包含根因和处置建议的诊断报告。整个过程从 15 分钟压缩到 1 分钟。
场景二:参数变更前的风险评估
某业务需要调整 innodb_buffer_pool_size,但不确定对线上集群的影响。输入「评估集群 pc-xxx 调整 innodb_buffer_pool_size 到 8G 的风险」,引擎会结合当前集群规格、负载特征、内存使用情况给出影响分析和建议。
场景三:主备切换的事后排查
生产集群发生了非预期的主备切换,需要快速确认是计划内还是故障触发。输入「分析集群 pc-xxx 最近的主备切换原因」,Skill 自动分析切换日志、时间线、触发条件,输出结论。
场景四:新人快速上手
新加入团队的开发者对 PolarDB 的 IMCI 列存引擎、代理层路由策略不熟悉。通过自然语言提问即可获得针对具体集群配置的技术解答,不再需要翻阅大量文档。
场景五:批量资产梳理
运维需要快速查看某个地域有哪些集群即将到期、哪些集群的安全配置不合规。一条自然语言指令完成过去需要多次控制台操作才能完成的批量查询。
04、安装与使用
前置条件
- Aliyun CLI >= 3.3.3(运行 aliyun version 确认版本号)
- jq(用于 JSON 响应解析)
- 阿里云账号及对应 RAM 权限
如果 CLI 未安装或版本过低,执行以下命令安装/更新:
curl -fsSL https://aliyuncli.alicdn.com/setup.sh | bash aliyun version # 确认 >= 3.3.3
安装步骤
第一步:开启自动插件安装并更新插件
# [必须] 开启自动插件安装 aliyun configure set --auto-plugin-install true # [必须] 更新本地已有插件到最新版本 aliyun plugin update # 安装 DAS 插件(get-yao-chi-agent API 依赖该插件的 Signature V3 支持) aliyun plugin install --names aliyun-cli-das
第二步:配置认证凭证
该 Skill 直接复用 Aliyun CLI 的认证配置,无需额外设置 AK/SK:
# 推荐:OAuth 模式 aliyun configure --mode OAuth # 或:AK 模式 aliyun configure set \ --mode AK \ --access-key-id <ACCESS_KEY_ID> \ --access-key-secret <ACCESS_KEY_SECRET> \ --region cn-hangzhou # 跨账号访问:RamRoleArn 模式 aliyun configure set \ --mode RamRoleArn \ --access-key-id <ACCESS_KEY_ID> \ --access-key-secret <ACCESS_KEY_SECRET> \ --ram-role-arn acs:ram::<ACCOUNT_ID>:role/<ROLE_NAME> \ --role-session-name yaochi-agent-session \ --region cn-hangzhou
第三步:启用 AI-Mode
AI-Mode 是 Agent Skill 执行的前置条件,使用前必须启用:
# [必须] 启用 AI 模式 aliyun configure ai-mode enable # [必须] 设置 User-Agent 标识 aliyun configure ai-mode set-user-agent \ --user-agent "AlibabaCloud-Agent-Skills/alibabacloud-polardb-ai-assistant"
注意:每次 CLI 命令调用都必须携带 --user-agent AlibabaCloud-Agent-Skills/alibabacloud-polardb-ai-assistant 参数。
第四步:关闭 AI-Mode(每次使用完毕后必须执行)
无论 Skill 执行成功、失败、异常还是用户取消,在返回最终响应之前,必须关闭 AI-Mode:
aliyun configure ai-mode disable
AI-Mode 仅用于 Agent Skill 调用场景,不应在 Skill 停止运行后保持开启状态。
使用建议
在实际使用中,以下几点可以显著提升诊断质量:
- 在提问中明确指定集群 ID(pc- 开头)和地域信息;
- 对复杂问题使用多轮对话保持上下文;
- 同账号下最大并发 2 个会话,避免并行调用触发限流;
- 涉及参数变更等高风险操作时,先在测试环境验证;
- 凭证通过 aliyun configure 管理,不要硬编码在脚本中。
安全边界
该 Skill 的设计严格限定在查询和诊断范围内。它不会创建/删除集群,不会变更实例规格,不会购买/续费实例,不会执行任何 DDL/DML 操作。所有输出仅作为技术参考,生产环境的变更操作始终需要人工确认后执行。
05、总结
PolarDB AI 助手 Skill 将数据库运维专家的经验沉淀为可复用的 AI 技能插件,通过 Aliyun CLI + DAS 插件 + PolarDB 智能诊断引擎的架构,实现了「用自然语言完成数据库运维」的工程落地。它覆盖了性能诊断、故障排查、参数调优、安全审计等 20+ 运维技能域,同时严格保障了安全边界——只读不写、权限隔离、数据不外泄。
对于正在管理 PolarDB 集群的 DBA 和开发者来说,这是一个可以直接投入生产环境使用的智能运维工具。