3 月 17 日,阿里发布企业级 AI 原生工作平台“悟空”。从公开信息看,悟空已经把企业账号权限、工作流接入、安全沙箱、Skill 生态和钉钉入口整合到一起,代表企业级 Agent 平台正在从“能对话”走向“能真正干活”。但平台可控,并不自动等于结果可独立验证。本文想讨论一个可能很快变得重要的问题:企业级 Agent 平台除了权限、沙箱和治理之外,是否还需要一层可导出、可验证、可第三方复核的执行证据层。
一、悟空这次真正往前推了什么
这次悟空发布,我个人最关注的不是“又多了一个 Agent 产品”,而是企业级 Agent 平台的形态开始变得更完整了。
从公开资料看,悟空不是一个单点工具,而是一个面向企业工作的 AI 原生平台:它既可以作为独立应用存在,也会内置到钉钉里;它强调和企业账号、权限体系、应用系统联动;它背后依托的是钉钉已经公开过的 Agent OS 路线,也就是把企业工作环境逐步改造成更适合 Agent 运行和协同的底座。换句话说,悟空不是“让 AI 看着界面模拟点击”,而是在把企业环境真正变成 AI 可以调用的运行场。
如果只用一句人话概括,我的理解是:
过去是人用企业软件工作,未来会越来越像 AI 在企业环境里替人完成一部分工作。
这一步很重要。因为它意味着企业级 Agent 平台的竞争,已经不只是聊天能力、模型能力或者提示词能力,而开始进入更硬的层面:身份、权限、运行时、安全、组织协作、成本和生态接入。
二、但“平台可控”不等于“结果可独立验证”
这也是我写这篇文章的原因。
今天企业级 Agent 平台公开强调的重点,通常是这些:
能接企业账号和权限
能在安全沙箱里运行
能调用内部系统和外部服务
能把任务拆分给多个 Agent
能做成本治理、权限治理、风险控制
这些当然都很重要。没有这些,平台很难真正进企业。
但这里面还有一个问题,经常没有被单独讲透:
平台能控制 Agent 做事,不等于平台外的人能独立验证 Agent 真的做过什么。
这两个不是一回事。
举个最简单的例子:
一个 Agent 说自己已经:
读了某份文档
调了某个接口
修改了某个表格
经过了某条策略判断
在某个沙箱环境里完成了任务
平台内部当然可以有日志。
但外部的采购方、审计方、合作方,看到的往往还是平台自己给出的后台记录、截图或者说明。
这时候问题就来了:
这些记录能不能导出?
导出之后能不能脱离原平台独立验证?
被篡改了能不能看出来?
供应商换了以后还能不能读?
如果这些问题没有统一答案,那么“可控运行”和“可独立复核”之间,仍然隔着一层。
三、我理解的“执行证据层”是什么
我这里说的“执行证据层”,不是想再造一个比平台更大的平台,而是想补一层更朴素、但很可能越来越重要的能力:
把 Agent 的关键执行事实,导出成可验证、可复核、可跨平台理解的最小证据包。
它不需要一开始就很重。
我理解的最小版本,至少可以有四类东西:
- event:发生了什么
比如:
开始执行
调用了什么工具
访问了什么资源
返回了什么结果
执行结束或失败
- context:在什么条件下发生
比如:
谁触发的
用了哪个身份
权限边界是什么
所在任务/会话是什么
沙箱或运行环境是什么
- hashes:有没有被改过
比如:
单事件 hash
链式 hash
整体 bundle hash
- verify:别人能不能独立检查
也就是说,拿到这个 bundle 后,不依赖原平台,也能判断:
结构是否完整
链是否连续
内容是否被改动
某一步是否缺失
这层东西的价值,不在于替代企业平台,而在于给平台之外的人一个“可看、可核、可交付”的对象。
四、为什么我觉得这层东西会越来越重要
原因很简单:企业真正规模化上 Agent 之后,迟早会碰到下面这些问题。
- 采购会问
甲方不会永远只看演示效果。
它迟早会问:
平台说完成了,怎么验收?
出错了,怎么追踪?
换供应商了,历史记录怎么办?
- 审计会问
只靠平台后台截图,往往不够。
越是高价值流程,越会需要:
可导出的记录
可保留的证据
可第三方复核的结果
- 生态会问
如果未来企业同时接多个 Agent 平台,最麻烦的事情之一,就是每一家都有自己的记录方式、审计方式、导出方式。
这时候,一个最小、开放、可验证的 evidence export 机制,就会开始有现实价值。
所以我更愿意把这个问题理解成:
企业级 Agent 平台下一阶段,不只是“怎么让 Agent 能安全干活”,还会变成“怎么让 Agent 干过的活能被独立验收”。
五、这层能力和现有平台不是对立关系
这里我想特别强调一点:
我不是在说企业级 Agent 平台做错了。
恰恰相反,我认为像悟空这样的平台往前走得越快,这个问题越值得早点讨论。
因为平台越强,进入企业越深,参与的流程越关键,外部世界就越会关心:
你不仅能不能做,还是不是能被证明地做。
所以“权限 + 沙箱 + 治理”是第一步。
而“evidence export + independent verify + third-party review”,也许会成为下一步值得提前准备的能力。
这两层不是替代关系,更像是:
上一层解决“能不能安全运行”
下一层解决“能不能独立验收”
六、一个开放问题
所以我最后想抛一个很具体的问题,供大家讨论:
未来的企业级 Agent 平台,是否值得支持一套最小的执行证据导出机制?
比如至少支持:
evidence bundle export
independent verify
tamper-evident chain
conformance fixtures
如果这层能力逐步成熟,它也许不只是一个安全补丁,而会变成企业 Agent 平台进入采购、审计和跨平台协作阶段时的一块基础设施。
我更愿意把它理解成:
不是再做一个更大的平台,
而是给所有平台补上一层更容易被验收和复核的底座。