6 月 2 日,OpenAI 宣布 Codex 的核心能力将完整并入 ChatGPT。周活突破 500 万,非开发者用户占比 20%,AI 从开发工具变成了通用生产力工具。
但有一个问题很少有人讨论:Agent 在后台干活时,每执行一步都在调用 API,用户只看到结果,看不到中间烧了多少 Token。
Agent 的级联消费模式
举个例子。你让 Agent「帮我分析这个月的销售数据,做个可视化报表」。它在后台的操作链条大概是:
读文件 → 调模型理解需求 → 生成分析代码 → 执行脚本 → 发现格式异常 → 修正代码 → 重新执行 → 渲染图表
用户看到的是一个漂亮的报表,但 Agent 可能调了七八次 API——每次按 Token 计费,且大概率跑在旗舰模型上。这跟人工调用有本质区别:人工调用可预期,Agent 调用是级联的、突发的、自带重试的。
账单粒度的问题
当前 API 账单的粒度是 Key 级别——告诉你这个月花了 3000 美元,但不知道哪些是人工调用、哪些是 Agent 自动跑出来的、哪个会话花了最多钱。Agent 可以在一小时内烧掉一个月的预算,而告警机制还停留在「月底看账单」的阶段。
Wiz 去年的报告显示,福布斯 AI 50 强中 65% 的企业在 GitHub 上泄露过 API Key。在 Agent 时代,一把泄露的 Key 加一个被注入的 Agent,可以在无人察觉的情况下产生高昂到荒谬的消费。
三个层面的治理思路
1. 消费归因的下沉
从 Key 级别细化到会话级别。核心思路是在 API 调用链路中注入会话标识(Session ID),在网关或 Proxy 层对每个请求打标,将消费数据按会话维度聚合。类似于阿里云 API 网关中的调用链追踪思路——不是事后统计,而是在请求路径上实时记录归属。
实现上可以通过请求头注入 X-Session-ID,在网关层解析并关联到成本事件。当某会话消费异常时,能定位到具体会话和触发人。
2. 预算控制从月额度到任务额度
月度配额挡不住 Agent 在一晚上烧掉全部额度。需要将预算控制下沉到任务级别。技术实现上可以通过令牌桶算法对单次会话设置消费上限,或在 Proxy 层增加实时计费拦截——当会话累计消费超过阈值时,直接返回 429 并终止后续调用。
阿里云函数计算等 Serverless 平台已经提供了按调用次数和资源消耗的精细计费,AI API 的消费控制可以参考类似的粒度设计。
3. 临时凭证与生命周期管理
给 Agent 的不应是永久有效的 Key,而是跟任务绑定的临时凭证。技术上可以通过 STS(临时安全令牌)模式实现:任务开始时签发一个有限权限和有效期的 Token,任务结束后自动失效。即使 Agent 被注入攻击,攻击面也被限制在单次任务范围内。
如果你已经用上了 Codex 或其他 Agent 工具,下次跑完复杂任务后不妨去后台看看 API 用量——一个你以为「一次性」的操作,实际触发的调用次数可能远超预期。Agent 替你干活是好事,但需要配套的治理机制才能放心地把权限交给它。