一个“审计优先”的安全 Agent,是怎么落到工程里的

简介: 如果你对“可放权、可审计、可追踪”的 Agent 框架有兴趣,欢迎交流。对我来说,模型能力只是起点,真正的挑战在执行权如何被治理。

这段时间我一直在重做 OpenClaw。

我想解决的问题其实很直接:
现在很多 Agent 系统,重点都放在“模型会不会做事”上,但真正一落到执行层,问题马上就来了——任务一旦放出去,过程还能不能看清?边界还能不能守住?敏感动作到底是谁放行的?出了问题以后还能不能回头查?

这也是我这次重做 OpenClaw 的出发点。

我想做的不是一个“接个模型、加个界面、顺手调工具”的套壳产品,而是一套可放权、可审计、可回查的安全 Agent 骨架。
重点不是模型本身有多聪明,而是它在执行任务时,能不能始终处在一个可治理的框架里。

我重点改的,不是模型,而是结构

这次重做,我把整个系统收成了三个核心层:

智能层:负责理解任务、生成提案、给出候选动作
审计核心层:负责动作归一化、风险判断、预算控制、确认点、执行签发
执行层:只负责在授权范围内执行,不直接理解自然语言,也不自己给自己放行

很多人看到这里,第一反应可能是:
这不就是正常分层吗?

没错,分层本身不是新东西。
真正关键的地方不在“三层”这件事,而在于:谁才是系统真正的中心。

我这里不是“模型在中间,审计在旁边盯着它”。
而是反过来:审计核心居中,智能层和执行层都只是能力层。

也就是说:

模型可以提案,但不能直接拥有执行权
执行层可以落地动作,但不能自己决定边界
真正决定“能不能做、做到哪一步、需不需要确认”的,是中间这层审计核心

这套结构的好处很直接:
系统不是“先执行,再补日志”,而是“先治理,再执行”。

为什么我要把“审计”放到这么高的位置

因为我越来越觉得,Agent 真正难的不是“会不会做”,而是“放出去以后还能不能管住”。

一个只会聊天的系统,其实还好。
但一个会写文件、改配置、跑命令、调工具、动本地目录的系统,如果没有中间这层治理,风险会迅速放大。

尤其是到了“熟人放权”这种场景,就更明显了。

现实中很多人并不是完全不想放权,恰恰相反,很多人是愿意放一部分权的:

给一个工作目录
给一个预算
给一个步数
给一个时间窗口

问题在于,放权不等于裸奔。

所以我这次重点做的,是把“放权”做成有边界的东西。
比如:

任务只允许在授权目录内落地
预算、步数、时长都可以单独设
高风险动作不能直接穿过去,必须停在确认点
最后执行结论、执行模式、写入字节数、动作类型、内容来源,都要留得住

这套东西的目标不是“绝对不出事”,而是让系统在变强的同时,始终带着边界和证据。

这次阶段性展示,我主要验证了什么

这次阶段性展示,我没有把重点放在“模型答得多漂亮”上,而是重点验证了四条链路:

  1. 任务输入链

能从自然语言任务进入系统,不只是聊天,而是真任务提交。

比如从截图里能看到,当前系统已经能接收比较复杂的本地任务,包括:

分析已有 Python 文件
生成报告
输出治理工作流产物
本地生成最小 CLI 工具项目
在指定目录里落地产物

这一步证明的不是“模型会说”,而是“系统能接任务”。

  1. 连接配置链

系统现在已经不是固定 demo 模型了,而是有了清晰的连接配置入口。

目前界面上已经做了主流 provider 预设入口,包括:

OpenAI / GPT
Gemini
DeepSeek
OpenAI-compatible
以及托管网关、本地兼容接口等

重点不在于“列了几个名字”,而在于:
模型来源、连接模式、提供者信息、状态预览这些东西,已经进入了一个可配置、可显示、可验证的结构里。

  1. 放权执行链

这是我自己最看重的部分。

现在系统已经能进入“熟人放权模式”,并明确配置:

授权目录
剩余预算
剩余步数
会话时长

也就是说,系统不是“直接给模型一个大开关”,而是把执行空间拆成几块具体边界。

这样放出去的权,不再是黑箱里的“你看着办”,而是:

我允许你在这个范围里行动,但过程必须可审计,超出边界就要停。

  1. 审计回查链

从截图里也能看到,我这次很在意的不只是“执行成功”,而是执行之后还能看到什么。

比如已经能回看到这些结果字段:

Gate Outcome
执行结论
执行状态
是否已执行
写入字节数
Normalized Action Type
Content Source
放权会话状态
授权范围命中
是否应用放权覆盖

这说明系统不是跑完就结束,而是已经开始形成可回查的治理结果面。

对我来说,这比“生成了一个文件”更重要。
因为后者只是能力,前者才是系统化。

我想做的,不是“会干活的模型”,而是“可放权的执行框架”

如果让我用一句话概括这次重做的重点,我会这样说:

我做的不是一个模型套壳,而是一套可放权、可审计、可追踪的执行框架。

这里面最关键的不是模型本身,而是这几个问题终于开始被工程化了:

模型如何进入系统
提案如何进入治理
放权如何有边界
敏感动作如何停在确认点
执行结果如何留下审计记录

这也是为什么我把“审计优先”放在标题里。
因为这不是一个后补的日志模块,而是整个系统真正的中枢。

现在做到哪一步了

先说清楚,这还不是最终版。

现在这版更准确的定位,是一个阶段性展示版。
核心骨架已经跑起来了,执行链和审计链也已经接上了,但在体验层、交互层、配置流程这些地方,还在继续打磨。

也就是说:

方向已经比较清楚
核心结构已经立住
但外层产品感还在继续补

我自己反而觉得,这种状态挺真实的。
因为很多东西最难的从来不是“做个界面”,而是底层结构先别做错。

为什么我还愿意继续做这个方向

因为我觉得,未来 Agent 系统真正拉开差距的地方,不会只是“模型更强”这件事,而是:

当系统开始真正行动时,它能不能还保持边界、秩序和可追踪性。

说得再直白一点:

套壳谁都会
接模型不难
做一个能演示的 Agent 也不难

真正难的是:

把执行权放出去以后,边界、过程和结果还能不能都握在手里。

而这恰恰是我现在最想做的那部分。

最后

这次先放一个阶段性展示。
重点不是证明“我已经全做完了”,而是把当前这套东西的方向和价值展示清楚。

如果你也对这些问题感兴趣,比如:

安全 Agent
审计优先的执行框架
放权模式
本地执行治理
可回查的任务系统

欢迎交流。

我目前更想继续把这套骨架往前推,尤其是把“可执行”这件事,真正做成“可治理的执行”。

目录
相关文章
|
7天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34477 17
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
19天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45307 142
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
8天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4872 21
|
1天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
1969 6
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 API 开发者
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案
阿里云百炼Coding Plan Lite已停售,Pro版每日9:30限量抢购难度大。本文解析原因,并提供两大方案:①掌握技巧抢购Pro版;②直接使用百炼平台按量付费——新用户赠100万Tokens,支持Qwen3.5-Max等满血模型,灵活低成本。
1813 5
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案

热门文章

最新文章