一个“审计优先”的安全 Agent，是怎么落到工程里的-阿里云开发者社区

一个“审计优先”的安全 Agent，是怎么落到工程里的

2026-04-09 35

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如果你对“可放权、可审计、可追踪”的 Agent 框架有兴趣，欢迎交流。对我来说，模型能力只是起点，真正的挑战在执行权如何被治理。

这段时间我一直在重做 OpenClaw。

我想解决的问题其实很直接：
现在很多 Agent 系统，重点都放在“模型会不会做事”上，但真正一落到执行层，问题马上就来了——任务一旦放出去，过程还能不能看清？边界还能不能守住？敏感动作到底是谁放行的？出了问题以后还能不能回头查？

这也是我这次重做 OpenClaw 的出发点。

我想做的不是一个“接个模型、加个界面、顺手调工具”的套壳产品，而是一套可放权、可审计、可回查的安全 Agent 骨架。
重点不是模型本身有多聪明，而是它在执行任务时，能不能始终处在一个可治理的框架里。

我重点改的，不是模型，而是结构

这次重做，我把整个系统收成了三个核心层：

智能层：负责理解任务、生成提案、给出候选动作
审计核心层：负责动作归一化、风险判断、预算控制、确认点、执行签发
执行层：只负责在授权范围内执行，不直接理解自然语言，也不自己给自己放行

很多人看到这里，第一反应可能是：
这不就是正常分层吗？

没错，分层本身不是新东西。
真正关键的地方不在“三层”这件事，而在于：谁才是系统真正的中心。

我这里不是“模型在中间，审计在旁边盯着它”。
而是反过来：审计核心居中，智能层和执行层都只是能力层。

也就是说：

模型可以提案，但不能直接拥有执行权
执行层可以落地动作，但不能自己决定边界
真正决定“能不能做、做到哪一步、需不需要确认”的，是中间这层审计核心

这套结构的好处很直接：
系统不是“先执行，再补日志”，而是“先治理，再执行”。

为什么我要把“审计”放到这么高的位置

因为我越来越觉得，Agent 真正难的不是“会不会做”，而是“放出去以后还能不能管住”。

一个只会聊天的系统，其实还好。
但一个会写文件、改配置、跑命令、调工具、动本地目录的系统，如果没有中间这层治理，风险会迅速放大。

尤其是到了“熟人放权”这种场景，就更明显了。

现实中很多人并不是完全不想放权，恰恰相反，很多人是愿意放一部分权的：

给一个工作目录
给一个预算
给一个步数
给一个时间窗口

问题在于，放权不等于裸奔。

所以我这次重点做的，是把“放权”做成有边界的东西。
比如：

任务只允许在授权目录内落地
预算、步数、时长都可以单独设
高风险动作不能直接穿过去，必须停在确认点
最后执行结论、执行模式、写入字节数、动作类型、内容来源，都要留得住

这套东西的目标不是“绝对不出事”，而是让系统在变强的同时，始终带着边界和证据。

这次阶段性展示，我主要验证了什么

这次阶段性展示，我没有把重点放在“模型答得多漂亮”上，而是重点验证了四条链路：

任务输入链

能从自然语言任务进入系统，不只是聊天，而是真任务提交。

比如从截图里能看到，当前系统已经能接收比较复杂的本地任务，包括：

分析已有 Python 文件
生成报告
输出治理工作流产物
本地生成最小 CLI 工具项目
在指定目录里落地产物

这一步证明的不是“模型会说”，而是“系统能接任务”。

连接配置链

系统现在已经不是固定 demo 模型了，而是有了清晰的连接配置入口。

目前界面上已经做了主流 provider 预设入口，包括：

OpenAI / GPT
Gemini
DeepSeek
OpenAI-compatible
以及托管网关、本地兼容接口等

重点不在于“列了几个名字”，而在于：
模型来源、连接模式、提供者信息、状态预览这些东西，已经进入了一个可配置、可显示、可验证的结构里。

放权执行链

这是我自己最看重的部分。

现在系统已经能进入“熟人放权模式”，并明确配置：

授权目录
剩余预算
剩余步数
会话时长

也就是说，系统不是“直接给模型一个大开关”，而是把执行空间拆成几块具体边界。

这样放出去的权，不再是黑箱里的“你看着办”，而是：

我允许你在这个范围里行动，但过程必须可审计，超出边界就要停。

审计回查链

从截图里也能看到，我这次很在意的不只是“执行成功”，而是执行之后还能看到什么。

比如已经能回看到这些结果字段：

Gate Outcome
执行结论
执行状态
是否已执行
写入字节数
Normalized Action Type
Content Source
放权会话状态
授权范围命中
是否应用放权覆盖

这说明系统不是跑完就结束，而是已经开始形成可回查的治理结果面。

对我来说，这比“生成了一个文件”更重要。
因为后者只是能力，前者才是系统化。

我想做的，不是“会干活的模型”，而是“可放权的执行框架”

如果让我用一句话概括这次重做的重点，我会这样说：

我做的不是一个模型套壳，而是一套可放权、可审计、可追踪的执行框架。

这里面最关键的不是模型本身，而是这几个问题终于开始被工程化了：

模型如何进入系统
提案如何进入治理
放权如何有边界
敏感动作如何停在确认点
执行结果如何留下审计记录

这也是为什么我把“审计优先”放在标题里。
因为这不是一个后补的日志模块，而是整个系统真正的中枢。

现在做到哪一步了

先说清楚，这还不是最终版。

现在这版更准确的定位，是一个阶段性展示版。
核心骨架已经跑起来了，执行链和审计链也已经接上了，但在体验层、交互层、配置流程这些地方，还在继续打磨。

也就是说：

方向已经比较清楚
核心结构已经立住
但外层产品感还在继续补

我自己反而觉得，这种状态挺真实的。
因为很多东西最难的从来不是“做个界面”，而是底层结构先别做错。

为什么我还愿意继续做这个方向

因为我觉得，未来 Agent 系统真正拉开差距的地方，不会只是“模型更强”这件事，而是：

当系统开始真正行动时，它能不能还保持边界、秩序和可追踪性。

说得再直白一点：

套壳谁都会
接模型不难
做一个能演示的 Agent 也不难

真正难的是：

把执行权放出去以后，边界、过程和结果还能不能都握在手里。

而这恰恰是我现在最想做的那部分。

最后

这次先放一个阶段性展示。
重点不是证明“我已经全做完了”，而是把当前这套东西的方向和价值展示清楚。

如果你也对这些问题感兴趣，比如：

安全 Agent
审计优先的执行框架
放权模式
本地执行治理
可回查的任务系统

欢迎交流。

我目前更想继续把这套骨架往前推，尤其是把“可执行”这件事，真正做成“可治理的执行”。

一个“审计优先”的安全 Agent，是怎么落到工程里的

千问大模型

热门文章

最新文章

相关电子书