不只是告警:用阿里云可观测 MCP 实现 AK 高效安全审计

本文涉及的产品
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
应用实时监控服务-应用监控,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 本文介绍了运维工程师小王如何通过阿里云操作审计日志与MCP结合,快速排查一次AK异常访问事件。借助自然语言查询技术,小王实现了对敏感操作、高风险行为及Root账号使用的实时追踪与分析,提升了安全响应效率与系统可控性。

640.gif

一、安全告警:一次 AK 异常访问事件

"滴滴滴--"


凌晨三点,寂静的夜里,运维工程师小王的手机突然响起刺耳的告警声。一个本该在休假、早已被禁用的员工 AccessKey(AK),竟然在生产环境中执行了一系列敏感操作。小王心里一沉,冷汗瞬间冒了出来。是黑客入侵?还是离职员工报复?这个AK是谁?它动了什么?删了什么?造成了多大的损失?


一连串的问题涌上心头。AK 就像是访问宝贵数据资产的钥匙。钥匙一旦失控,后果不堪设想。


二、环境准备:操作审计日志与 MCP 的结合

幸运的是,小王的公司之前通过阿里云可观测云监控 2.0 控制台将操作审计日志投递到了阿里云日志服务,因此每一次云上资源操作会以日志形式进行存储。其中,身份认证相关的操作事件是操作审计的重要组成部分,包含 AccessKey 使用情况、用户身份信息、操作类型等关键数据。


640.png


MCP-Server-Aliyun-Observability阿里云可观测团队推出的 MCP 服务器,只需要用日常对话的方式向它提问,它就能立刻理解您的意图,并从海量的日志数据中,迅速找到您想要的答案。

(1)MCP 服务器

MCP-Server-Aliyun-Observability 当前版本主要涵盖日志服务 SLS 和应用实时监控服务 ARMS 的功能,支持用户通过自然语言查询 SLS 日志信息和 ARMS 的链路数据,以及获取一些元数据信息。

MCP 服务器有两种工作模式:stdio 模式和 SSE 模式。在 stdio 模式下,大模型客户端直接启动一个 MCP 服务器,通过标准输入输出进行进程间通信来交互。而在 SSE 模式中,MCP 服务器独立启动,并通过暴露的端口供 MCP 客户端连接和交互。

(2)MCP 客户端

常见的 MCP 客户端有 Claude Desktop、Cursor、Cherry Studio,以及与 Cline/Continue 配合使用的 VSCode,本文使用 Cherry Studio 进行排查。

1、如果要以 stdio 模式配置 mcp-server-aliyun-observability,可以在 Cherry Studio 中通过“从 JSON 导入”功能完成。


640 (1).png


JSON 配置如下,记得替换具体的 AK 信息:

{
  "mcpServers": {
    "aliyun_observability": {
      "command": "uvx",
      "args": [
        "mcp-server-aliyun-observability",
        "--access-key-id", "阿里云AKId", 
        "--access-key-secret", "阿里云AKSecret"]
    }
  }
}

640 (2).png


2、在对话框中选择已配置好的 MCP 服务器,并选择一个模型(推荐使用阿里云百炼)。这样,您就可以利用 MCP 服务器来分析 SLS 中的日志。如果向模型询问工具后列出了阿里云 SLS 工具,则说明 MCP 服务器配置已成功。


640 (3).png


三、实战案例:四种 AK 审计场景

为了让模型能够更精准地理解查询需求,我们需要为它提供详细的"词典"。操作审计日志库以及字段信息如下:

# 日志库信息
- Region: cn-heyuan
- Project: aliyun-product-data-155xxxxx2981-cn-heyuan  
- Logstore: actiontrail_security-actiontrail-1743562654649
# 字段信息
- __topic__: 日志主题,固定为actiontrail_event
- __time__: 事件发生时间
- owner_id: 阿里云账号ID
- event.eventId: 事件ID,每个事件的唯一身份证
- event.eventName: 事件名称,告诉我们具体发生了什么
- event.eventSource: 事件来源
- event.eventType: 事件类型
- event.serviceName: 事件服务名称,标识是哪个云服务
- event.resourceName: 相关资源的唯一标识
- event.resourceType: 相关资源类型
- event.userIdentity.accessKeyId: 使用的AccessKey ID
- event.userIdentity.accountId: 请求账号的ID
- event.userIdentity.principalId: 请求账号的凭证ID
- event.userIdentity.type: 请求账号的类型
- event.userIdentity.userName: 请求账号的名称
- event.errorCode: 事件失败时的错误码
- event.errorMessage: 事件失败的错误信息
- addionalEventData.isMFAChecked: 登录账号是否开启MFA
- addionalEventData.loginAccount: 登录账号

640 (4).png


现在,一切准备就绪,小王打开了搭载 MCP 的工具,像聊天一样,开始了他的破案过程。


案例一:追踪可疑 AK 访问记录

小王问:"查一下AK 'LN......7',最近都干了些啥?把它的操作类型、时间都列出来!"

MCP 迅速响应,几秒钟内就给出了答案。原来,这个 AK 在凌晨时分执行了 SLS 项目查询操作。虽然看起来是普通的查询,但在深夜时段的异常活动立即引起了小王的警觉。通过这条线索,安全团队迅速锁定了用户活动轨迹,为后续的深入调查奠定了基础。

原版查询:


640 (5).png

640 (6).png


案例二:识别高风险操作

小王继续问:"最近一周,有没有人干过删除、更新这种危险操作?把最可疑的用户找出来,告诉我他们的操作的服务和事件名!"

系统报告显示,某个开发人员的 AK 在过去几天内,频繁执行"Delete" 和"Remove"操作,远超正常范围。经过核查,发现是该员工的个人电脑中毒,AK 被恶意软件利用。一场内部信息安全危机被扼杀在摇篮里。

原版查询:

统计最近一周疑似的高危操作(例如,资源的删除)频次top2,字段包括服务名、事件名、地域以及出现次数

640 (7).png

640 (8).png

640 (9).png


案例三:监控 Root 账号使用情况

小王还不放心,继续排查:"过去一个月,有没有人用过 Root 账号的 AK?它的每次使用都必须有记录。把使用者和具体操作都给我列出来!"

Root AK 拥有最高权限,是安全审计的重中之重。通过 MCP,小王可以轻松实现对 Root AK 使用的常态化监控,确保这把"万能钥匙"只在最必要、最合规的情况下被使用,杜绝了权限滥用的风险。

原版查询:


640 (10).png

640 (11).png

640 (12).png


案例四:系统活动概况分析

最后,小王想了解整体的系统活动情况:"给我看看最近的云服务访问情况,列出 10 条近期的事件信息!"

通过查看近期的云服务访问事件,小王可以从宏观角度了解系统的整体活动状况,发现异常访问模式,为安全防护提供全面的数据支撑。这种定期的系统健康检查,让任何异常活动都难以逃脱监控的法眼。

原版查询:

列出10条近期云服务访问的事件信息

640 (13).png

640 (14).png

640 (15).png


四、总结与展望

凌晨四点,警报解除,风险排除。小王终于松了一口气。借助操作审计 Log 和 MCP,安全审计不再是事后翻阅天书般的日志,而是变成了与智能助手实时对话、主动出击的"探案"过程。

相关文章
人工智能 安全 IDE
268 28
|
23天前
|
人工智能 弹性计算 自然语言处理
云速搭 AI 助理发布:对话式生成可部署的阿里云架构图
阿里云云速搭 CADT(Cloud Architect Design Tools)推出智能化升级——云小搭,一款基于大模型的 AI 云架构助手,致力于让每一位用户都能“动动嘴”就完成专业级云架构设计。
345 30
|
27天前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
430 56
|
20天前
|
存储 人工智能 前端开发
从需求到研发全自动:如何基于Multi-Agent架构打造AI前端工程师
本文深入阐述了蚂蚁消金前端团队打造的Multi-Agent智能体平台——“天工万象”的技术实践与核心思考。
412 20
从需求到研发全自动:如何基于Multi-Agent架构打造AI前端工程师
|
20天前
|
缓存 负载均衡 算法
合理选择任务调度的路由策略,可以帮助降本 50%
任务调度系统在处理短周期任务时,路由策略对执行器负载均衡至关重要。不同策略适用于不同场景:轮询确保平均分配,随机依赖概率,LFU/LRU基于使用频率或时间,一致性哈希保障节点变化时的稳定性,而负载最低优先与任务权重策略则更智能地应对资源消耗差异。合理选择路由策略可显著提升系统性能与资源利用率。
317 34
合理选择任务调度的路由策略,可以帮助降本 50%
|
20天前
|
人工智能 自然语言处理 数据可视化
聊聊多维表格与BI|AI x Data 数据产品的发展趋势
多维表格与Quick BI深度融合,助力企业在AI与数据时代实现高效分析。多维表格作为轻量级数据管理工具,擅长快速填报与基础分析;而Quick BI则专注于多源数据整合、深度洞察与可视化展示。两者协同,既能降低使用门槛,又能提升数据分析的广度与深度,满足企业从数据采集到智能决策的全链路需求。未来,数据产品将朝着低门槛、多场景与实用性方向发展,推动商业智能迈向新高度。
168 25
|
17天前
|
人工智能 编解码 数据可视化
AI创作更自由: 魔搭FLowBench云端工作流上线AIGC专区!支持QwenImageEdit免费出图!
很高兴向大家宣布,ModelScope AIGC 专区的工作流功能正式上线!
276 22
|
20天前
|
人工智能 Kubernetes 监控
初探:从0开始的AI-Agent开发踩坑实录
本文主要阐述作者通过亲身实践,探索利用AI Agent实现开源应用Helm Chart自动化生成的实践历程。
263 17
初探:从0开始的AI-Agent开发踩坑实录

热门文章

最新文章