不只是告警:用阿里云可观测 MCP 实现 AK 高效安全审计

本文涉及的产品
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
容器镜像服务 ACR,镜像仓库100个 不限时长
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 本文介绍了运维工程师小王如何通过阿里云操作审计日志与MCP结合,快速排查一次AK异常访问事件。借助自然语言查询技术,小王实现了对敏感操作、高风险行为及Root账号使用的实时追踪与分析,提升了安全响应效率与系统可控性。

640.gif

一、安全告警:一次 AK 异常访问事件

"滴滴滴--"


凌晨三点,寂静的夜里,运维工程师小王的手机突然响起刺耳的告警声。一个本该在休假、早已被禁用的员工 AccessKey(AK),竟然在生产环境中执行了一系列敏感操作。小王心里一沉,冷汗瞬间冒了出来。是黑客入侵?还是离职员工报复?这个AK是谁?它动了什么?删了什么?造成了多大的损失?


一连串的问题涌上心头。AK 就像是访问宝贵数据资产的钥匙。钥匙一旦失控,后果不堪设想。


二、环境准备:操作审计日志与 MCP 的结合

幸运的是,小王的公司之前通过阿里云可观测云监控 2.0 控制台将操作审计日志投递到了阿里云日志服务,因此每一次云上资源操作会以日志形式进行存储。其中,身份认证相关的操作事件是操作审计的重要组成部分,包含 AccessKey 使用情况、用户身份信息、操作类型等关键数据。


640.png


MCP-Server-Aliyun-Observability阿里云可观测团队推出的 MCP 服务器,只需要用日常对话的方式向它提问,它就能立刻理解您的意图,并从海量的日志数据中,迅速找到您想要的答案。

(1)MCP 服务器

MCP-Server-Aliyun-Observability 当前版本主要涵盖日志服务 SLS 和应用实时监控服务 ARMS 的功能,支持用户通过自然语言查询 SLS 日志信息和 ARMS 的链路数据,以及获取一些元数据信息。

MCP 服务器有两种工作模式:stdio 模式和 SSE 模式。在 stdio 模式下,大模型客户端直接启动一个 MCP 服务器,通过标准输入输出进行进程间通信来交互。而在 SSE 模式中,MCP 服务器独立启动,并通过暴露的端口供 MCP 客户端连接和交互。

(2)MCP 客户端

常见的 MCP 客户端有 Claude Desktop、Cursor、Cherry Studio,以及与 Cline/Continue 配合使用的 VSCode,本文使用 Cherry Studio 进行排查。

1、如果要以 stdio 模式配置 mcp-server-aliyun-observability,可以在 Cherry Studio 中通过“从 JSON 导入”功能完成。


640 (1).png


JSON 配置如下,记得替换具体的 AK 信息:

{
  "mcpServers": {
    "aliyun_observability": {
      "command": "uvx",
      "args": [
        "mcp-server-aliyun-observability",
        "--access-key-id", "阿里云AKId", 
        "--access-key-secret", "阿里云AKSecret"]
    }
  }
}

640 (2).png


2、在对话框中选择已配置好的 MCP 服务器,并选择一个模型(推荐使用阿里云百炼)。这样,您就可以利用 MCP 服务器来分析 SLS 中的日志。如果向模型询问工具后列出了阿里云 SLS 工具,则说明 MCP 服务器配置已成功。


640 (3).png


三、实战案例:四种 AK 审计场景

为了让模型能够更精准地理解查询需求,我们需要为它提供详细的"词典"。操作审计日志库以及字段信息如下:

# 日志库信息
- Region: cn-heyuan
- Project: aliyun-product-data-155xxxxx2981-cn-heyuan  
- Logstore: actiontrail_security-actiontrail-1743562654649
# 字段信息
- __topic__: 日志主题,固定为actiontrail_event
- __time__: 事件发生时间
- owner_id: 阿里云账号ID
- event.eventId: 事件ID,每个事件的唯一身份证
- event.eventName: 事件名称,告诉我们具体发生了什么
- event.eventSource: 事件来源
- event.eventType: 事件类型
- event.serviceName: 事件服务名称,标识是哪个云服务
- event.resourceName: 相关资源的唯一标识
- event.resourceType: 相关资源类型
- event.userIdentity.accessKeyId: 使用的AccessKey ID
- event.userIdentity.accountId: 请求账号的ID
- event.userIdentity.principalId: 请求账号的凭证ID
- event.userIdentity.type: 请求账号的类型
- event.userIdentity.userName: 请求账号的名称
- event.errorCode: 事件失败时的错误码
- event.errorMessage: 事件失败的错误信息
- addionalEventData.isMFAChecked: 登录账号是否开启MFA
- addionalEventData.loginAccount: 登录账号

640 (4).png


现在,一切准备就绪,小王打开了搭载 MCP 的工具,像聊天一样,开始了他的破案过程。


案例一:追踪可疑 AK 访问记录

小王问:"查一下AK 'LN......7',最近都干了些啥?把它的操作类型、时间都列出来!"

MCP 迅速响应,几秒钟内就给出了答案。原来,这个 AK 在凌晨时分执行了 SLS 项目查询操作。虽然看起来是普通的查询,但在深夜时段的异常活动立即引起了小王的警觉。通过这条线索,安全团队迅速锁定了用户活动轨迹,为后续的深入调查奠定了基础。

原版查询:


640 (5).png

640 (6).png


案例二:识别高风险操作

小王继续问:"最近一周,有没有人干过删除、更新这种危险操作?把最可疑的用户找出来,告诉我他们的操作的服务和事件名!"

系统报告显示,某个开发人员的 AK 在过去几天内,频繁执行"Delete" 和"Remove"操作,远超正常范围。经过核查,发现是该员工的个人电脑中毒,AK 被恶意软件利用。一场内部信息安全危机被扼杀在摇篮里。

原版查询:

统计最近一周疑似的高危操作(例如,资源的删除)频次top2,字段包括服务名、事件名、地域以及出现次数

640 (7).png

640 (8).png

640 (9).png


案例三:监控 Root 账号使用情况

小王还不放心,继续排查:"过去一个月,有没有人用过 Root 账号的 AK?它的每次使用都必须有记录。把使用者和具体操作都给我列出来!"

Root AK 拥有最高权限,是安全审计的重中之重。通过 MCP,小王可以轻松实现对 Root AK 使用的常态化监控,确保这把"万能钥匙"只在最必要、最合规的情况下被使用,杜绝了权限滥用的风险。

原版查询:


640 (10).png

640 (11).png

640 (12).png


案例四:系统活动概况分析

最后,小王想了解整体的系统活动情况:"给我看看最近的云服务访问情况,列出 10 条近期的事件信息!"

通过查看近期的云服务访问事件,小王可以从宏观角度了解系统的整体活动状况,发现异常访问模式,为安全防护提供全面的数据支撑。这种定期的系统健康检查,让任何异常活动都难以逃脱监控的法眼。

原版查询:

列出10条近期云服务访问的事件信息

640 (13).png

640 (14).png

640 (15).png


四、总结与展望

凌晨四点,警报解除,风险排除。小王终于松了一口气。借助操作审计 Log 和 MCP,安全审计不再是事后翻阅天书般的日志,而是变成了与智能助手实时对话、主动出击的"探案"过程。

相关文章
|
5天前
|
人工智能 弹性计算 自然语言处理
云速搭 AI 助理发布:对话式生成可部署的阿里云架构图
阿里云云速搭 CADT(Cloud Architect Design Tools)推出智能化升级——云小搭,一款基于大模型的 AI 云架构助手,致力于让每一位用户都能“动动嘴”就完成专业级云架构设计。
181 26
|
3天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2025 年 8 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
|
22天前
|
Kubernetes Docker Python
Docker 与 Kubernetes 容器化部署核心技术及企业级应用实践全方案解析
本文详解Docker与Kubernetes容器化技术,涵盖概念原理、环境搭建、镜像构建、应用部署及监控扩展,助你掌握企业级容器化方案,提升应用开发与运维效率。
325 108
|
3天前
|
存储 测试技术 开发者
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。
56 15
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
|
10天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运维效率,赋能智能投顾服务创新,引领行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
13天前
|
数据采集 存储 人工智能
基于 EventBridge 构筑 AI 领域高效数据集成方案
本文深入探讨了AI时代数据处理的变革与挑战,分析了事件驱动架构(EventBridge)在AI数据处理中的技术优势,并结合实践案例,展示了其在多源数据接入、向量数据库优化、智能数据转换等方面的应用价值。
235 29
|
26天前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
237 23
|
19天前
|
Kubernetes 安全 Devops
「迁移急救包」全云平台无缝迁移云效实操手册
阿里云云效是国内领先的一站式DevOps平台,提供代码全生命周期管理、智能化交付流水线及精细化研发管控,支持多种开发场景。本文详细介绍了从其他平台(如Coding)向云效迁移的完整方案,包括代码仓库、流水线、制品仓库及项目数据的迁移步骤,帮助用户实现高效、安全的平滑迁移,提升研发效率与协作能力。
306 29
|
14天前
|
消息中间件 Java 测试技术
RocketMQ-5.3.1异常、原因汇总表
本简介汇总了常见的RocketMQ异常信息及其解决方案,涵盖主题配置、网络通信、SSL设置、权限控制、消息发送与消费等多个方面,帮助开发者快速定位和理解异常原因。
122 16